不会写代码如何进行大数据文本分析——词频统计篇

2020-03-18
admin
摘要:伴随着互联网的发展,人们越来越能发现数据尤其是大数据对于工作、生活的意义,“大数据是信息时代的石油”,如何从海量数据中挖掘有效信息是许多人面临的难题。

提到大数据分析,百度百科会为你提供许多专业名词,人们往往联想到的是掌握了专业技能的程序员。但事实上,普通人或许不需要理解诸如python等程序语言背后的运行机制,他们可以通过更简单便捷的途径找到适合自己的工具,完成专业程序员用代码才可以实现的任务。

 

举个最简单的例子,当下数据分析文章中必不可少的就是词云图,指的是对文本中出现频率较高的“关键词”以视觉化的形式呈现。如何实现这一功能,市面上已经出现了许多在线免费词云工具,英文版有Wordart、Wordcloud,中文版有微词云,都可以方便快捷地达到如下图效果:

简单的一键生成词云图,其背后是通过代码帮你解决了多种模式的文本分词处理、去停用词、去高频词等难题。但是,这些市面上已有的免费工具普遍存在许多弊端,就是无法解决批量文本(往往只能导入单篇文本或多次录入),也无法根据词性进行筛选,再复杂一点的计算诸如Bigrams计算更是没有办法实现。Bigrams计算是为了探测出文本中的新词,基于词汇之间的共现关系---如果两个词经常一起毗邻出现,那么这两个词可以结合成一个新词,比如“新冠”、“肺炎”经常一起出现在不同的段落里,那么,“新冠肺炎”则是二者合成出来的新词。

 

机器是死的,但人的需求往往是多变的。一个社会科学领域的老师想要分析疫情期间媒体报道中出现的高频人物,或者是媒体的报道倾向,他只需要筛选出数据中的名词或形容词;而当涉及到本学科出现的专有名词时,他又需要一个工具能够对这些名词进行全新的组合,建立专属的学科词典。

 

背后更深的逻辑是,文本挖掘中对词汇的分析功能是远大于词云图的。锐研云文析平台,可以基于上述功能,提供专业化的文本分析工具,具体体现在以下几点:


支持批量文本数据导入

支持词性选择

支持自定义词典





在这里,我们以疫情期间在网络公开平台爬取到的数千条疫情相关新闻为例,当我们想要实现批量中文分词及词频统计时,我们是如何完成的:




Step 1  导入数据


首先登陆锐研云文析,在【我的分析】中新建文本库,点击[操作],选择其中的[数据]字段,选取需要分析处理的数据文件,在标题映射中选择对应的目标字段,最后进行上传。





Step 2 数据预处理


在处理数据之前需要对数据进行一定的预处理,以避免无用的词汇对分析结果造成干扰。


首先我们观察到数据中含有“此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利”等无效信息;可以用数据清洗对无用信息来进行替换。


将内容中的一些无效信息替换成空格,可以达到删除的效果。


Step 3 自定义词典


我们研究的话题有一些系统无法识别的词组出现,譬如“新冠肺炎”、“新型冠状病毒”、“华南海鲜市场”等,系统无法识别这些词组;可以在【分析配置】中通过添加自定义词组来避免此类问题。在这里,我们创建了一个疫情词典,根据自己的文本数据添加相应的词组。





Step 4 词频分析


词频分析可以实现对文本的分词和词频统计。目前分词算法支持基本分词、精准分词、NLP分词和面向索引分词四类。


点击“新建词频统计”;我们分析的数据是第一财经报道的新闻内容,分词字段选择“内容”;在这里我们使用的分词算法是“精准分词”;在分词词典中找到刚刚创建的分词词典“疫情”;最后点击“开始分词”,等待分析完成。


Step 5 分析结果

云文析目前支持对词频分类结果进行数量统计、词性筛选,并自动生成简单词云图。

想要生成更具设计感的词云图,云文析支持导出数据结果,可利用目前市面上的在线免费工具(Wordart、Wordcloud,微词云等),选择合适的模版生成您需要的样式。

点击链接查看在线免费生成词云图教程:



Wordart

https://mp.weixin.qq.com/s/ErTP92fF8R8zPgiROObmRw

https://www.sohu.com/a/151356882_99910245

 

微词云

https://zhuanlan.zhihu.com/p/59252741

 

Wordclouds

https://blog.csdn.net/DSTJWJW/article/details/93884142


锐研团队后续会分享更多数据分析相关实用工具案例,希望此文能为您提供一些帮助。


疫情期间,锐研云文析开放个人用户注册,有相关研究意向,欢迎扫描下方二维码联系我们的官方客服,为您开通更多权限。锐研·云文析网址:https://wx.ringdata.com

发表评论
评论通过审核后显示。