WEB数据采集系统.docVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

WEB数据采集系统

西安网是科技发展有限公司——网站信息采集系统

PAGE

第PAGE5页

企业

实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。

及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。

为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。

大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。

提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。

新闻媒体

快速准确地自动采集数信息。

支持每天对数万条新闻进行有效抓取。

支持对所需内容的智能提取、审核。

实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。

系统构架

工作过程描述

采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的站网上,这个过程需要做如下配置工作:下载网页配置,解析网页配置,修正结果配置,数据输出配置。如果数据符合自己要求,修正结果这步可省略。配置完毕后,把配置形成任务(任务以XML格式描述),采集系统按照任务的描述开始工作,最终把采集到的结果存储到网站服务器上。

工作流程图如下:

数据处理逻辑图:

系统功能

根据用户事先配置好的规则(网页下载规则,网页解析规则等),进行数据采集。

当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方式),这个过程不再需要人工干涉。

技术特点

1.支持多种网页编码格式,也可以人工设置编码格式。支持各国语言的网站。

2.支持图片,软件,音乐,视频,flash等多种格式资源的下载。

3.支持采集结果输出的多样性,可以使用不同输出插件进行输出,也可以自己开发输出插件。

4.采集配置分为三个部分:网页爬虫配置,网页解析配置,采集任务配置。以上三者可以自由搭配,便于重复利用已设置完毕的配置。

5.可定制的数据解析和抽取。可以自由配置要采集的网络元数据,并可以对每个网络元数据自定义字段名。便于后续信息处理。

6.采集爬虫采用多任务、多数据源管理。

7.每个任务下可以指定多个采集入口网站。

8.采集条件设置,可以针对不同任务下的入口网站设置采集路径、重点页面、采集网址过滤等控制条件。控制条件采用正则表达式。

9.运行配置,采集运行过程中使用的爬虫名称、个数、数据更新频度等均可以由用户进行配置。

10.自动识别文本中的图片信息,并且自动下载到本地,并替换文本中的图片URL为本地URL。

11.管理控制台可以监控采集过程的运行情况。

系统优势

精确度高

用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源,实施24小时不间断监测和采集,信息动态始终处于掌握之中。系统支持将网页中的信息内容按日期、标题、作者、栏目进行提取,过滤网页中的无用信息。扩展抓取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。

易用性好

系统参数设置简单,一次设置多次使用。设置过程直观、便捷。

灵活性强

系统具有很强的灵活性,可按需选择目标站点,并根据形势的变化,随时更换目标站点。用户可直接到某一网站抓取用户想要的特定栏目下的信息,它仅仅要求用户设定特定的抓取条件,用户需要的内容就会自动被抓取和保存下来,从而实现由用户上网找信息转变为信息自动流向用户的方式。

实施部署容易

系统用户界面友好,抓取服务器在任意浏览器下运行,实施部署过程简单,即装即用。

采集内容全面

适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页采集内容的完整性在99%以上。

抓取速度快

系统支持多线程处理技术,支持运行多条线程的同时抓取。可快速高效地对目标站点或栏目进行信息采集,大大加快了信息的抓取速度,保证在同等单位时间内信息的抓取量成倍数增长。

系统界面展示

文档评论(0)

185****9651 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档