科技创新 | 云文析:文本数据可视化分析
- 2019-05-02
- 萌泰科技
云文析平台集成了数据清洗、词频统计、词云展现、文本分类、文本聚类、情感分析、主题分析、词向量分析、词共现网络、事件网络、新闻指数等各类可视化分析模型和工具。可支持从文本内容中提取时间、空间、人物、机构、事件、观点、情感等内容,实现对各类文本的多维度可视化呈现和分析研究。
平台可为相关领域的学者、媒体机构、政府机构、企业等用户提供新闻数据可视化分析和研究服务,帮助用户更好地洞察和了解社会现象,市场需求以及政治、经济、社会变迁的趋势。
云文析在科研教学和社会服务等方面都具有重大的学术价值和应用价值。在科研教学方面,国内尚缺乏面向学术研究的文本大数据研究平台,本项目可以弥补这一短板。教学方面,本项目可以支持国内社会科学专业师生进行课堂教学和上机实践,如面向新闻专业的课程可覆盖研究方法设计、数据新闻、计算传播学等课程,面向营销学的课程可包括数字营销,市场调查与研究等课程;科研方面,本项目可以帮助社会科学领域的研究人员完成原始资料收集、文本内容分析、舆情分析、传播路径和脉络的梳理、数据可视化等研究内容和操作。
在社会服务方面,其应用主要在于新闻舆情领域。该项目可以为政府、企业和媒体从业者等不同用户群体带来价值。政府管理者可以通过对本平台更全面地了解社情民意,分析突发事件的舆情规律,洞察经济社会发展的时代特征;企业用户可以通过本平台了解消费者舆情,产品需求变化,竞争对手动态等信息;媒体记者可以通过本平台梳理出新闻事件传播的路径,找到不同事件之间的关联性。
云文析主要功能如下:
(1)数据清洗对文本库进行数据预处理的可视化工具;
创建不同的清洗条件,根据设置的条件能快速清洗数据;
对清洗的数据可以保存到新的文本库。
(2)锐研NLP
集成主流自然语言处理(NLP)引擎;
支持文本分词,词性标注,文本摘要,关键词提取和词云展现;
支持自定义文本语料库。
(3)词频统计
支持词频统计,以及词云图分析展现;
可根据不同的词性进行筛选统计;
可根据条件筛选对部分文本进行词频统计。
(4)文本分类
支持多种分类算法;
支持对分类训练集的管理和维护;
支持对多种分类结果进行比较。
(5)文本聚类
支持K-Means, STC, Lingo等多种聚类算法;
支持聚类算法参数的调整;
聚类结果可以导出。
(6)情感分析
支持进行基于情感字典的情感分析;
集成多个情感字典库,包括台湾大学中文情感库、LIWC等。
支持自定义情感字典库。
词向量分析
对一组文本进行Word2Vec词向量分析;
可查询词的词向量;
可以发现词的相似性。
(7) 主题分析
基于LDA算法对一组文本进行主题分析;
可以设定LDA算法的模型参数;
可以查询算法运行的主题分类结果。
(8)词共现分析
基于词共现网络算法对一组文本进行分析;
支持查询词和词共现的概率;
可视化呈现词共现网络图。
作为对锐研·云采集(RING SPIDER PLATFORM)的姊妹产品,云文析可支持对爬虫采集的文本数据进行深度分析和挖掘。云文析亦可支持分析用户上传的自定义文本数据。就部署方式而言,云文析既可支持独立的公有云或私有云部署,也可以与锐研·云采集一起集成到锐研文本大数据研究平台(RING BIGRESEARCH)上。
发表评论
新闻动态