锐研·云采集：互联网爬虫采集平台 - 大数据系列 - 上海萌泰数据科技股份有限公司

锐研·云采集：互联网爬虫采集平台

2016-02-08

萌泰科技

摘要：锐研互联网数据动态采集系统(Ring BigResearch WebExtractor)是一套面向互联网文本采集领域，灵活可配置的动态采集系统。系统允许用户自定义需要监测的互联网数据源，能够采集新闻、门户、论坛、文献等各类互联网数据。支持关键字检索条件，支持智能抓取网页中文本内容和背景数据，支持提取标题、发布人、发布时间、来源、内容、摘要、关键词等信息。产品基于分布式爬虫框架，具有稳定、可靠、高性能和高可扩展性。

一、概述

锐研互联网数据动态采集系统(Ring BigResearch WebExtractor)是一套面向互联网文本采集领域，灵活可配置的动态采集系统。系统允许用户自定义需要监测的互联网数据源，能够采集新闻、门户、论坛、文献等各类互联网数据。支持关键字检索条件，支持智能抓取网页中文本内容和背景数据，支持提取标题、发布人、发布时间、来源、内容、摘要、关键词等信息。产品基于分布式爬虫框架，具有稳定、可靠、高性能和高可扩展性。

二、产品功能

1、系统集成

作为子系统能集成到统一的云管理平台，共享云平台的统一管理功能。

2、项目管理

新建采集项目，支持启动、暂停和关闭；支持自定义互联网数据源，允许对采集数据源进行灵活配置，支持智能抓取相关网页的文本内容和背景数据；抓取的数据能够同时存储到数据库和文件。

3、数据抓取

基本分布式爬虫框架；能够抓取新闻类、论坛类、文献类平台的数据；能进根据数据源配置关键词组合、时间范围、子频道等，实现定向的基于关键词的数据抓取；能够配置抓取线程的数量，抓取时间间隔；支持断点继续。

4、采集监控

数据的抓取的过程能够实时监控和管理。

5、可视化爬虫设计

能够支持对爬虫的可视化设计，基于Web浏览器进行爬虫可视化配置，爬虫的设计应包括爬虫入口、采集字段、页面处理器、个性化配置等主要部分，一个爬虫可以添加多个页面处理器。

6、爬虫市场

提供不少于380个新闻网站数据源的爬虫采集模板，包括所有国家网信办公布的可用于转载的新闻媒体的网站。

7、分布式集群

集成IP动态代理池，支持采集节点的分布式部署，能够支持大规模的分布式采集。

三、特色和优势

分布式爬虫架构

平台采用基于分布式爬虫架构，可实现高效的多线程，可扩展的的动态采集；

多数据源采集

支持抓取主流门户、新闻、论坛、文献等各类数据源；

面向主题的采集

支持灵活配置各类检索条件，实现面向主题的数据采集。

四、产品体验

锐研·云采集