锐研本地搜索引擎系统(Ring BigResearch LocalSearch)

2016-02-07
萌泰科技
摘要:锐研本地搜索引擎系统(Ring BigResearch LocalSearch)是锐研大数据研究平台的内置搜索引擎,能够对采集的文本内容进行索引,建立本地快照,提供方便的搜索界面。本地专题库不仅保存了网页的链接地址、标题、摘要、发布人、发布时间等关键字段,还保存了所有网页的纯文本内容和网页HTML快照。本地搜索引擎提供给了对这些文本内容的本地快速检索服务。

一、概述

锐研本地搜索引擎系统(Ring BigResearch LocalSearch)是锐研大数据研究平台的内置搜索引擎,能够对采集的文本内容进行索引,建立本地快照,提供方便的搜索界面。本地专题库不仅保存了网页的链接地址、标题、摘要、发布人、发布时间等关键字段,还保存了所有网页的纯文本内容和网页HTML快照。本地搜索引擎提供给了对这些文本内容的本地快速检索服务。

二、产品功能

(1)系统集成

系统基于纯BS架构,作为子系统能集成到统一的大数据研究云平台,共享云平台的统一管理功能。

(2)文本索引

集成文本搜索引擎,在文本抓取后,能够对文本的标题、内容进行分词,并建立专业的文本索引库。

(3)本地检索

抓取的文本以文件形式存储在服务器,同时将常用信息存储到数据库,系统通过索引表能够快速检索到文本,并能够查看文本的网页快照

(4)高级检索

支持根据组合条件查询本地存储的文本。

三、特色和优势

(1)集成NLP分词技术

通过自然语义处理(NLP)技术对文本进行中文分词,并对分词后的单词建立索引,提高了检索的有效性;

(2)基于主流搜索引擎标准,可扩展性强

基于主流搜索引擎标准,能够实现搜索引擎的内置到现有的文本大数据研究平台中,对网络抓取的数据源进行有效的索引和本地快照功能,支持纯文本保存和网页快照。


    发表评论
    评论通过审核后显示。