锐研·云文析:文本分析和挖掘系统
- 2016-02-06
- 萌泰科技
一、概述
锐研文本分析和挖掘系统(Ring BigResearch TextAnalyzer)是一套基于自然语言处理(NLP)技术的文本分析和挖掘软件,支持对文本进行内容分析,利用自然语言处理(NLP)对文本进行分词,词性标注和词频统计。平台可集成中文处理引擎和多种文本分析算法,支持结合系统和用户自定义的词汇字典库进行各类词频分析、情感分析、实体抽取、短语抽取、文本分类、文本聚类、主题模型、词向量分析、共现分析、事件分析等。
二、产品功能
1、系统集成
作为子系统能集成到统一的云管理平台,共享云平台的统一用户管理功能。
2、文本库管理
提供对分析文本库的统一管理,包括建立文本库的子文本库管理;支持对文本进行快速的统计分析,可根据数据源、日期等条件对所有文本进行数量统计。
3、数据导入
支持数据从文件导入,从云采集平台导入和从文本数据库直接导入。
4、数据清洗
提供对文本库的文本的可视化增删改查处理,支持数据去重和数据替换。
5、文本分词
利用自然语言处理(NLP)分词算法对文本进行分词,词性标注;支持选择不同的分词算法;支持系统和用户自定义的词汇字典库。
6、词频统计
支持对文本进行词频统计;可根据词性筛选关键词或自定义关键词生成词云图。
7、文本分类
根据一个训练集,对新的文本进行数据分类,提供对分类训练集的管理;集成贝叶斯分类 ,BP神经网络分类 , CNN深度学习分类等分类算法。
8、文本聚类
在没有训练集的情况下,根据算法对所有文本进行聚类分析,集成K-means聚类,DBSCAN聚类,聚合聚类,BIRCH聚类,Mini-batch聚类,均值漂移聚类,光谱聚类,高斯混合聚类,ISODATA聚类等聚类算法。
9、情感分析
支持根据情感字典库来判断某一个文章的正负情感,集成常用的中文情感词典。
10、词向量分析
基础词向量分析模型,能够对给定的文本集进行词向量分析,可以实时查询分析结果和可视化呈现。
11、主题分析
集成LDA主题分析模型,能够自动对给定的文本集进行主题建模,支持自动推荐最优主题数。
12、自动编码
能够自动根据文本的关键词规则为文本进行自动编码。
13、短语抽取
可根据词性权重,长度权重,主题突出权重等提取出文本中的短语,并进行频次统计。
14、词共现网络
能够对给定的文本分析一组词的共现概率,生成词共现网络图。
15、事件提取
能够根据事件词典库提取文本中的核心事件,并进行统计;支持用户自定义事件词典库;事件包括事件分类、参与者、时间、地点等属性。
三、特色和优势
强大的数据处理
- 数据清洗:去重、替换、筛选、排序
- 数据组合:分割、聚合、联合、合并
- 数据计算:函数、取样
- 数据预处理:编码、分词、向量化
灵活的分析配置
- 自定义算法和模型参数
- 内置丰富的分析模板
- 智能化参数推荐
丰富的可视化图表
- 更丰富的可视化方式
- 分析结果页面自定义布局
- 以链接方式分享分析结果
全新的图形化建模
- 全面支持自定义分析流程
- 通过拖动任务模块,轻松构筑复杂的文本处理和分析流程
四、产品体验
点击这里体验 锐研云文析 的全部功能。
