高校案例:南京大学新闻大数据平台

2019-03-04 15:44:00    admin    3441    原创
摘要:南京大学新闻大数据平台

2018年10月29日,由上海萌泰数据科技股份有限公司和南京大学新闻传播学院合作开发的南京大学双创新闻数据平台的在南京大学新闻传播学院进行了成果展示。


在此次会议上,上海萌泰数据科技股份有限公司总经理李军详细介绍了新闻数据平台的功能。包括网页爬虫、搜索引擎、文本分析和分布式计算技术等。

伴随着专业细化、学科交叉、知识爆炸的信息社会全面来临,各行业各层次人士都面临着如何及时、准确、高效地获取信息这一社会性难题。由国家统筹建设的大型综合化数据库,在满足社会信息需求方面主要地扮演了“百科全书”式角色, 其重要性不可低估。

但是,对于特定地域、特定行业、特定专业或特定专题的个性化信息需求,综合数据库大概主要起方向性、指导性作用,而不能很好满足诸如科研人员、市场企划人员等对特定领域信息的系统深入需求。因此,为了满足数字化信息的集合和用户个性化需求的发展, 迫切需要建设一批有规模、有特色、有权威的专题数据库。


南京大学双创新闻数据平台的建设

南京大学双创新闻数据平台的建设为社会科学学术研究搭建一个可以提供  全维度历史数据查询的新闻大数据开放研究平台,平台拟采用分布式文本  采集技术面向全网媒体构建面向各个领域,各个主题的各类新闻热点事件  的数据库,并应用文本分析、数据挖掘、人工智能、数据可视化等大数据  分析手段,从新闻文本内容中提取时间、空间、人物、事件、观点、情感  等内容,实现对各类新闻事件的多维度可视化呈现和分析研究。


1.建设意义

南京大学双创新闻数据库基于灵活的可配置的数据采集和数据处理规则,力图打造成一个公共的新闻研究开放数据库平台,支持定制面向各个主题的专题数据库,最终建设成能够覆盖全媒体,全领域,全时域的新闻事件数据库,为相关领域的学者、媒体机构、政府机构等用户提供分析和研究的公共数据服务平台。

2.服务对象

南京大学“双创”新闻数据平台是一个面向广大研发人员的特色新闻大数据开放研究平台,其服务对象主要包括开发人员、项目经理、用户、测试人员或文档的编写人员等。

3.内容介绍

新闻数据库共收录了中国大陆地区的300家媒体网站上的数据。新闻内容覆盖2015年国家网信办公布可供网站转载新闻的所有新闻单位(合计380家)的全部数据,包括中央新闻网站、部委网站、地方新闻网站、中央新闻单位(报刊和杂志)、省级新闻单位(报刊)以及广电新闻机构。



南京大学“双创”新闻数据库及分析平台是一套面向互联网新闻大数据领域,集互联网数据动态采集、文本搜索、文本分析、专题数据库管理于一体的大数据研究服务平台。平台能够提供对互联网文本数据的采集、存储、检索和分析等功能,平台可以集成 Hadoop 技术框架,支持分布式计算,具有稳定、可靠、高性能和高可扩展性。

目前南京大学“双创”新闻数据平台尚处于小规模使用中,有望今年年底正式对外提供服务。如需了解更多详细信息,敬请关注锐研中国!





沪ICP备09099644号