锐研互联网数据动态采集系统(Ring BigResearch WebExtractor)
- 2016-02-08
- 萌泰科技
一、概述
锐研互联网数据动态采集系统(Ring BigResearch WebExtractor)是一套面向互联网文本采集领域,灵活可配置的动态采集系统。系统允许用户自定义需要监测的互联网数据源,能够采集新闻、门户、论坛、文献等各类互联网数据。支持关键字检索条件,支持智能抓取网页中文本内容和背景数据,支持提取标题、发布人、发布时间、来源、内容、摘要、关键词等信息。产品基于分布式爬虫框架,具有稳定、可靠、高性能和高可扩展性。
二、产品功能
(1)系统集成
系统基于纯BS架构,作为子系统能集成到统一的大数据研究云平台,共享云平台的统一管理功能。(2)项目管理
新建采集项目,支持启动、暂停和关闭;支持自定义互联网数据源,允许对采集数据源进行灵活配置,支持智能抓取相关网页的文本内容和背景数据;抓取的数据能够同时存储到数据库和文件。(3)数据抓取
基本分布式爬虫框架;能够抓取门户类、新闻类、论坛类、文献类平台的数据;能进根据数据源配置关键词组合、时间范围、子频道等,实现定向的基于关键词的数据抓取;能够配置抓取线程的数量,抓取时间间隔;支持断点继续。(4)采集监控
数据的抓取的过程能够实时监控和管理。
三、特色和优势
(1)分布式爬虫架构
平台采用基于分布式爬虫架构,可实现高效的多线程,可扩展的的动态采集;(2)多数据源采集
支持抓取主流门户、新闻、论坛、文献等各类数据源;(3)面向主题的采集
支持灵活配置各类检索条件,实现面向主题的数据采集。
发表评论
新闻动态