国内面向社会科学研究的中文新闻数据库现已上线

2020-06-29
admin
摘要:CND中文新闻数据库采集了国家网信办公布的可供新闻转载的380家新闻出版单位的所有互联网公开的数据,目前数量总量超过8000万条,覆盖媒体数量1000余家。预计到2020年下半年覆盖国内主流1500家网站数据以及主要报纸,公众号和APP的新闻数据。本数据库采用Hadoop平台作为文本存储的基础架构,并基于分布式搜索引擎对文本提供索引。

1.大数据时代的新闻业

随着21世纪的到来,人类社会已经逐渐进入大数据时代,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”全球每天生成的数据量达到2.5EB,相当于10亿张容量为25GB的蓝光光盘,而且其增长势头在不断加快。令人吃惊的是,人类迄今为止生成的数据中,有90%是在近两年内产生的。

 

这些数据中,其中有一类数据记录了我们人类社会的所有发展过程,是社会发展和变迁的见证者,它就是“新闻”。目前我国每天产生的原创文本新闻(含各类资讯)的数量超过数十万篇,如此数量规模的新闻文本中蕴含了大量的信息和知识。如何将这些有价值的新闻文本存储起来,并从中提取出有价值的信息和知识是一个巨大挑战。CND中文新闻数据库正是在这一背景下诞生。


2.数据库简介

CND中文新闻数据库包括国内外所有中文新闻报道,索引提供新闻内容主题分类, 从新闻中提取时间、地点、人物、机构、主题、情感、影响力等各类结构化变量。新闻数据来源覆盖国家网信办公布的可供新闻转载的380家新闻单位(含报纸和网站)、 各级省市的地方媒体、知名微信公众号等。可按主题、时间、来源进行分类筛选,此外,数据库还可提供便携的新闻可视化分析新闻指数查询工具。

该数据库面向人文社会科学领域,致力于满足用户在舆情分析、内容分析、传播分析、案例研究、文化研究、历史研究等方面的需求,帮助用户高效检索新闻文本,节约大量的资料收集整理时间。CND将最终建立一个能够覆盖全媒体、全领域、全时域的中文新闻开放数据服务平台,为相关领域的学者、媒体机构、政府机构、企业等用户提供新闻数据可视化分析和研究服务,帮助用户更好地洞察和了解社会现象,市场需求以及政治、经济、社会变迁的趋势。


数据库特色


3.数据库提供以下服务


▷中文新闻数据检索

CND中文新闻数据库采集了国家网信办公布的可供新闻转载的380家新闻出版单位的所有互联网公开的数据,目前数量总量超过8000万条,覆盖媒体数量1000余家。预计到2020年下半年覆盖国内主流1500家网站数据以及主要报纸,公众号和APP的新闻数据。本数据库采用Hadoop平台作为文本存储的基础架构,并基于分布式搜索引擎对文本提供索引。


▷可视化分析

锐研社会科学专题数据库平台集成了一款文本分析与挖掘工具——锐研·云文析系统。用户可以将搜索的文本内容添加到自定义的文本库,通过中文自然语言处理引擎,结合系统和用户自定义的词汇字典库进行各类词频分析,文本分类、文本聚类、情感分析、主题分析等。



▷新闻指数

CND中文新闻数据库还提供了一个指数查询工具——锐研新闻指数(RNI, Ring News Index)。新闻指数可以提供用户检索某一个关键词或关键词组合在一定时间范围内的出现词频、新闻数量、新闻文本情感均值、新闻传播影响力均值等。这些指标可以按天、月、年时间进行可视化展现,指数结果也可以进行导出,以供进一步分析研究。




▷知识挖掘

新闻文本中蕴含了大量有待挖掘的信息,CND将致力于对文本内容进行深度挖掘,提取更多有意义的变量,如事件分类、人物角色、观点观念、行为方式、态度倾向等等。通过构建知识网络,还可以分析各类信息主体之间的关联关系。CND将可能构建一个潜在的人类社会知识网络体系。


▷内容生产

新闻行业从根本上说是内容产业,而数据库本身是内容整合的有效工具,是数字内容产业的价值体现。整合是结构的优化,流程的再造,是力量的倍增器。以数据库为核心的媒体资源整合,是提高新闻媒体竞争力的重要手段。其中“数据新闻”、“算法新闻”或“人工智能新闻”是一个方向。这类新闻通常是基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式,是随着大数据和人工智能时代的到来出现的一种新型报道形态。这在一定程度上可能改变传统新闻生产流程。“大数据”使新闻报道更具客观性和说服力,通过数据,可以深入发掘事物之间的深层联系并预测事物发展的趋势。“用数据说话”、“用数据讲新闻”是大数据时代新闻报道形式出现的一大新的亮点。


▷科研和社会服务

一方面,数据库本身就是媒体。在统一的数据库平台上,新闻资源得以有效的整合。新闻数据库对外开放,通过信息检索和分析工具,可以实现信息的增值。另一方面,数据库是朝阳产业,具有广阔的发展前景。在新闻媒体数据库的建设过程中,要注意分析受众的需求,根据不同用户、不同行业的特点,开发特色的数据库产品,最大限度地满足社会的需求。


CND中文新闻数据库能够及时采集、存储各种新闻信息,并提供各类可视化分析工具,可以为政府决策、企业经营、学术科研、媒体创新等方面提供数据支撑。随着中文新闻数据库规模的不断扩充和人工智能技术的不断升级,相信在不久的将来,CND中文新闻数据库项目的价值将得到进一步的彰显。

————————————————————————————————————————————————

萌泰数据是社会科学领域数据服务商和科研教学工具厂商,面向社会科学教育实践、学术研究和社会服务,提供一体化数据解决方案。目前旗下包括“锐研”和“智社”两大子品牌。


“锐研”是萌泰数据旗下社会科学专题数据库及科研服务平台,旨在为学者和科研人员提供专题数据库和科研数据采集与分析服务,以及各类社会调查研究方法工具支持。旗下产品包括五大特色数据库、三大指数产品、六大社会调查研究工具以及智慧蜂众包任务平台等科研服务产品。

锐研产品矩阵

萌泰官网:www.monetware.com

锐研中国:www.ringdata.org

锐研专题数据平台:www.ringdata.com

锐研中国官方微信公众号

智社官方微信公众号

Campbell中国联盟官方微信公众号


发表评论
评论通过审核后显示。