网络爬虫毕业论文.doc

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

网络爬虫毕业论文

抓取网页中所有链接Java代码

摘要

因特网目前是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。但Internet所固有的开放性、动态性与异构性,使得准确快捷地获取网络信息存在一定难度。

本文的目的就是对网站内容进行分析,解析其中的超链接以及对应的正文信息,然后再通过URL与正文反馈网站内容,设计出抓取网页链接这个程序。

抓取网页中的所有链接是一种搜集互联网信息的程序。通过抓取网页中的链接能够为搜索引擎采集网络信息,这种方法有生成页面简单、快速的优点,提高了网页的可读性、安全性,生成的页面也更利于设计者使用。

关键词:网页解析;JAVA;链接;信息抽取

ScrapingofthepagealllinksintheJavacode

Abstract

TheInternetisalarge,widelydistributed,globalinformationservicecenter,itinvolvesnews,advertisement,consumptioninformation,financialmanagement,education,government,electroniccommerceandmanyotherinformationservices.ButtheInternetinherentintheopen,dynamicandheterogeneoussex,makequicklyandaccuratelyobtainthenetworkinformationhascertaindifficulty.

Thepurposeofthisarticleistoanalyzethecontentofthewebsite,whichresolvesthehyperlinkandthecorrespondingtextmessage,andthenthroughthewebsiteURLandthetextcontentofthefeedback,designthescrapingofthepagelinkstothisprogram.

ScrapingofthepagealllinksisaprogramtocollectinformationontheInternet.Collectedbysearchenginescancrawltheweblinkinthenetworkinformation,thisapproachhasgeneratedpageissimple,quickadvantage,improvethereadabilityofwebsecurity,generatedpagesarealsomoreconducivetothedesignertouse.

Keywords:Pageanalysis;JAVA;link;informationext

ii

目录

摘要I

ABSTRACTII

1绪论1

1.1课题背景11.2网页信息抓取的历史和应用11.3抓取链接技术的现状2

1.3.1网页信息抓取的应用3

1.3.2网页信息提取定义42系统开发技术和工具72.1项目开发的工具7

2.1.1Tomcat简介7

2.1.2MyEclipse简介72.2项目开发技术8

2.2.1JSP简介8

2.2.2Servlet简介10

2.3创建线程11

2.3.1创建线程方式11

2.3.2JAVA中的线程的生命周期12

2.3.3JAVA线程的结束方式12

2.3.4多线程同步123系统需求分析143.1需求分析143.2可行性分析14

3.2.1操作可行性14

3.2.2技术可行性14

3.2.3经济可行性15

3.2.4法律可行性153.3业务分析153.4功能需求174概要设计184.1运行工具184.2抓取网页中所有链接的体系结构18

4.3抓取网页中链接工作过程194.4页面的设计20

4.4.1页面的配置20

文档评论(0)

A女汉子~小郭 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档