锐研·云采集:互联网爬虫采集平台

2016-02-08
萌泰科技
摘要:锐研互联网数据动态采集系统(Ring BigResearch WebExtractor)是一套面向互联网文本采集领域,灵活可配置的动态采集系统。系统允许用户自定义需要监测的互联网数据源,能够采集新闻、门户、论坛、文献等各类互联网数据。支持关键字检索条件,支持智能抓取网页中文本内容和背景数据,支持提取标题、发布人、发布时间、来源、内容、摘要、关键词等信息。产品基于分布式爬虫框架,具有稳定、可靠、高性能和高可扩展性。

一、概述

锐研互联网数据动态采集系统(Ring BigResearch WebExtractor)是一套面向互联网文本采集领域,灵活可配置的动态采集系统。系统允许用户自定义需要监测的互联网数据源,能够采集新闻、门户、论坛、文献等各类互联网数据。支持关键字检索条件,支持智能抓取网页中文本内容和背景数据,支持提取标题、发布人、发布时间、来源、内容、摘要、关键词等信息。产品基于分布式爬虫框架,具有稳定、可靠、高性能和高可扩展性。

二、产品功能


1、系统集成

作为子系统能集成到统一的云管理平台,共享云平台的统一管理功能。

2、项目管理

新建采集项目,支持启动、暂停和关闭;支持自定义互联网数据源,允许对采集数据源进行灵活配置,支持智能抓取相关网页的文本内容和背景数据;抓取的数据能够同时存储到数据库和文件。

3、数据抓取

基本分布式爬虫框架;能够抓取新闻类、论坛类、文献类平台的数据;能进根据数据源配置关键词组合、时间范围、子频道等,实现定向的基于关键词的数据抓取;能够配置抓取线程的数量,抓取时间间隔;支持断点继续。

4、采集监控

数据的抓取的过程能够实时监控和管理。

5、可视化爬虫设计

能够支持对爬虫的可视化设计,基于Web浏览器进行爬虫可视化配置,爬虫的设计应包括爬虫入口、采集字段、页面处理器、个性化配置等主要部分,一个爬虫可以添加多个页面处理器。

6、爬虫市场

提供不少于380个新闻网站数据源的爬虫采集模板,包括所有国家网信办公布的可用于转载的新闻媒体的网站。

7、分布式集群

集成IP动态代理池,支持采集节点的分布式部署,能够支持大规模的分布式采集。


三、特色和优势


分布式爬虫架构

平台采用基于分布式爬虫架构,可实现高效的多线程,可扩展的的动态采集;

多数据源采集

支持抓取主流门户、新闻、论坛、文献等各类数据源;

面向主题的采集

支持灵活配置各类检索条件,实现面向主题的数据采集。


四、产品体验

锐研·云采集

    发表评论
    评论通过审核后显示。