锐研·云采集:互联网爬虫采集平台
- 2016-02-08
- 萌泰科技
一、概述
锐研互联网数据动态采集系统(Ring BigResearch WebExtractor)是一套面向互联网文本采集领域,灵活可配置的动态采集系统。系统允许用户自定义需要监测的互联网数据源,能够采集新闻、门户、论坛、文献等各类互联网数据。支持关键字检索条件,支持智能抓取网页中文本内容和背景数据,支持提取标题、发布人、发布时间、来源、内容、摘要、关键词等信息。产品基于分布式爬虫框架,具有稳定、可靠、高性能和高可扩展性。
二、产品功能
1、系统集成
作为子系统能集成到统一的云管理平台,共享云平台的统一管理功能。
2、项目管理
新建采集项目,支持启动、暂停和关闭;支持自定义互联网数据源,允许对采集数据源进行灵活配置,支持智能抓取相关网页的文本内容和背景数据;抓取的数据能够同时存储到数据库和文件。
3、数据抓取
基本分布式爬虫框架;能够抓取新闻类、论坛类、文献类平台的数据;能进根据数据源配置关键词组合、时间范围、子频道等,实现定向的基于关键词的数据抓取;能够配置抓取线程的数量,抓取时间间隔;支持断点继续。
4、采集监控
数据的抓取的过程能够实时监控和管理。
5、可视化爬虫设计
能够支持对爬虫的可视化设计,基于Web浏览器进行爬虫可视化配置,爬虫的设计应包括爬虫入口、采集字段、页面处理器、个性化配置等主要部分,一个爬虫可以添加多个页面处理器。
6、爬虫市场
提供不少于380个新闻网站数据源的爬虫采集模板,包括所有国家网信办公布的可用于转载的新闻媒体的网站。
7、分布式集群
集成IP动态代理池,支持采集节点的分布式部署,能够支持大规模的分布式采集。
三、特色和优势
分布式爬虫架构
平台采用基于分布式爬虫架构,可实现高效的多线程,可扩展的的动态采集;多数据源采集
支持抓取主流门户、新闻、论坛、文献等各类数据源;面向主题的采集
支持灵活配置各类检索条件,实现面向主题的数据采集。
四、产品体验
发表评论
新闻动态