- 1、本文档共78页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
网络爬虫毕业论文
抓取网页中所有链接Java代码
摘要
因特网目前是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。但Internet所固有的开放性、动态性与异构性,使得准确快捷地获取网络信息存在一定难度。
本文的目的就是对网站内容进行分析,解析其中的超链接以及对应的正文信息,然后再通过URL与正文反馈网站内容,设计出抓取网页链接这个程序。
抓取网页中的所有链接是一种搜集互联网信息的程序。通过抓取网页中的链接能够为搜索引擎采集网络信息,这种方法有生成页面简单、快速的优点,提高了网页的可读性、安全性,生成的页面也更利于设计者使用。
关键词:网页解析;JAVA;链接;信息抽取
ScrapingofthepagealllinksintheJavacode
Abstract
TheInternetisalarge,widelydistributed,globalinformationservicecenter,itinvolvesnews,advertisement,consumptioninformation,financialmanagement,education,government,electroniccommerceandmanyotherinformationservices.ButtheInternetinherentintheopen,dynamicandheterogeneoussex,makequicklyandaccuratelyobtainthenetworkinformationhascertaindifficulty.
Thepurposeofthisarticleistoanalyzethecontentofthewebsite,whichresolvesthehyperlinkandthecorrespondingtextmessage,andthenthroughthewebsiteURLandthetextcontentofthefeedback,designthescrapingofthepagelinkstothisprogram.
ScrapingofthepagealllinksisaprogramtocollectinformationontheInternet.Collectedbysearchenginescancrawltheweblinkinthenetworkinformation,thisapproachhasgeneratedpageissimple,quickadvantage,improvethereadabilityofwebsecurity,generatedpagesarealsomoreconducivetothedesignertouse.
Keywords:Pageanalysis;JAVA;link;informationext
ii
目录
摘要I
ABSTRACTII
1绪论1
1.1课题背景11.2网页信息抓取的历史和应用11.3抓取链接技术的现状2
1.3.1网页信息抓取的应用3
1.3.2网页信息提取定义42系统开发技术和工具72.1项目开发的工具7
2.1.1Tomcat简介7
2.1.2MyEclipse简介72.2项目开发技术8
2.2.1JSP简介8
2.2.2Servlet简介10
2.3创建线程11
2.3.1创建线程方式11
2.3.2JAVA中的线程的生命周期12
2.3.3JAVA线程的结束方式12
2.3.4多线程同步123系统需求分析143.1需求分析143.2可行性分析14
3.2.1操作可行性14
3.2.2技术可行性14
3.2.3经济可行性15
3.2.4法律可行性153.3业务分析153.4功能需求174概要设计184.1运行工具184.2抓取网页中所有链接的体系结构18
4.3抓取网页中链接工作过程194.4页面的设计20
4.4.1页面的配置20
文档评论(0)