[如何实现搜索关键词的新浪微博信息采集与监控.docx

[如何实现搜索关键词的新浪微博信息采集与监控.docx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[如何实现搜索关键词的新浪微博信息采集与监控

搜索新浪微博指定信息的采集与监控之前我们已经讲过如何采集新浪微博博主信息的采集与监控,但是也听很多朋友说,我需要监控特定关键词的相关微博最新信息,那么我们应该如何采集呢,下面的教程就主要实现我们对搜索出来的微博信息采集与监控。众所周知,微博微信作为时下最火热的社交平台,如果能对这两个平台上的数据进行深入分析挖掘,那么价值将非常巨大,但是在采集过程中,很多朋友也因为新浪的防采集很是头痛,笔者通过多方比较尝试,笔者最终顺利完成了整个数据采集过程,要采集的数据为指定城市的所有微博用户的相关信息。比如微博内容、微博评论数、微博转发数等等,进入正题,看看具体一步一步怎么操作来实现的。此次的教程需要用到的是熊猫采集软件,这是新一代的智能采集器,操作非常简单容易,不需要专业基础,新手首选。且功能特别强悍复杂,只要是浏览器能看到的内容,都可以用熊猫批量的采集下来。如各种电话号码邮箱,各种网站信息搬家,网络信息监控、网络舆情监测、股票资讯实时监控等等。熊猫采集器是唯一拥有子页面嵌套访问功能的采集软件,对于本案例涉及到的微博的信息获取,需要利用这个功能,轻松获取到js加载的信息内容。如果有兴趣的看官们,可以百度熊猫采集软件下载即可,熊猫的免费版就已经包含我下面演示所以功能。那么我就进入本次教程的演示环节吧!首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准)这个时候是进入我们的基础设置,在这里,我们可以给我们创建的项目命名一个名称已方便我们以后好区分我们之前设置过的项目,当然,我们不设置也是可以的,因为我这里是采集搜索出来的新浪微博信息,我就去了一个新浪微博收索的名称。直接点击下一步设置,进入到标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。我们在新浪微博搜索的地方需要我们要监控的关键词,比如我要监控“财经行业”这个关键词的微博信息,那么我们就需要这个关键词点击搜索就会出来我们需要的标题列表页面。如下图:下面我们将这个标题列表页的网址拷贝到我们的软件中来因为信息里面的信息内容是经过了Unicode加密处理,那么我们在分析并采集他的内容的时候需要进行一下Unicode解密,在熊猫的高级设置里面解析设置里面就有这个功能,我们只需要在软件里面讲它勾选上即可,如下图,点击确认出来,点击开始进行预分析的按钮,会出现下图的提示如果我们需要翻页采集,那么选择是即可,不要则选择否即可。因为新浪搜索出来的信息页没有翻页,所以这里我们选择否即可,如果你要采集的信息地方需要多页采集,那么我们就需要进行翻页设置采集,这个可根据你的实际情况来决定。在采集新浪的时候,我们必须要进行登陆才可以采集。所以这时候我们需要利用熊猫的模拟登录功能来实现我们的登陆,首先我们需要利用抓包工具或者流量器自带的抓包,来获取到我们账户登陆过的cookie,这里我就用浏览器的抓包,右键我们的鼠标,会出现审查元素,点击进去,选择network,如下图:这个时候我需要重新刷新一下页面,找到我们需要的cookie即可将这个cookie放入到熊猫进行模拟登陆:做完了这些工作,我们如果在分析完网页后,打开源码,会发现其中有转义字符,这个时候我们需要将源码做一个修缮,将这些转义字符换成我们正常的字符。那么下面进入源码的修缮下面点击下一步设置,进入到我们选择内容页的设置,这个时候我们不能像采集如新闻页面一样的直接可以找到我们需要采集进去的链接,我们需要利用方式3,中介出来我们收索出来的这些微博的网址。这个时候我们需要抽取出源码中的某些代码,然后进行组合,形成我们需要采集的微博的网址点击检查中介设置的时候,右边就会出现我们所以需要采集的网址了,下面进入下一步设置,也就是内容页模板管理设置。这里系统默认会把我们在上一步第一条中的链接作为模板,在这里,我们也可以自己选择一个链接作为模板,只要把网址粘贴到添加新模板按钮左边的文本框里,点击添加新模板即可,但是这里我们就不要自己去找模板了,直接使用上一级传过来的就可以了。如下图:点击添加新模板之后会弹出一个设置模板的新窗口。点击软件右上方的开始分析,稍等片刻之后软件会询问你是否需要软件自动提取标题正文,一般情况下我们在这里都会选择否,如果你是采集新闻类的内容,这个地方你也可以选择是,也可以选择否,(选择是的话就软件就直接帮我们分析出来标题和正文了,操作就很简单,选择否就需要我们自己找到我们要采集的内容,这种操作会很灵活,由于选择是非常简单,而且我们采集的也不是新闻,所以我们这里就选择否了)如图这个时候,我们会发现并没有内容可供我们采集,这个原因是因为新浪做了防采集措施,我们需要对源码进行一个修缮,具体修缮规则如下这个时候保存,出来,再次点击开始分析

文档评论(0)

caiyl9924 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档