- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
互联网大数据处理技术与应用研究p.ppt
提纲 互联网大数据的研究价值及关注点 互联网大数据中的关键技术 一个应用例子 QA 目前的大数据研究和应用遇到的主要问题 数据领域封闭 数据量太少 静态数据偏多,缺乏动态机制 数据类型单一 应用价值很有限 实际上只是简单DM,总被认为是“忽悠” 互联网大数据恰好突破了这些固有缺欠,破解了大数据研究中没有合适大数据的尴尬局面。 可得性好 类型丰富 数据量巨大 动态性高 价值体现广泛 互联网大数据的可得性好 各类门户网站 新闻网站 各类网络论坛 微博 电子商务网站 信息聚合网站 … 互联网大数据的类型丰富 新闻文本:财经、军事、社会热点 用户评论信息:商品评论、服务评论、人物评论等 用户位置信息:IP地址、签到、经纬度位置、轨迹数据等 社交类信息:人际关系、人际连接 用户情感信息:观点、情感、人格 各类元数据:图书信息、汽车信息、地产信息、招聘岗位信息、商品信息 … 互联网大数据的数据量巨大、动态性高 新闻信息不断产生 用户行为数据不断产生 人际联系数据不断生成、变化 位置信息不断产生、覆盖面广 这种动态性为分析过程性模型提供了极好的基础 互联网大数据的价值体现广泛 新闻热点、网络舆情热点挖掘,为掌控事件态势变化提供依据 用户评论信息挖掘,为商品/服务质量的改进提供可靠证据 信息推荐,通过用户位置、个人偏好分析,提升信息推荐的准确性 用户情感挖掘与利用,为特殊人群分析、财经市场分析、舆情观点极性分析提供新的特征 与各个学科/专业领域的结合性好,为第四范式研究提供了基础 互联网大数据与各个学科/领域的结合 人工智能:天然的标注数据 新闻学:数字新闻、传播理论的验证和量化分析 金融学:网络用户行为分析、行为金融中的各种结论 刑事侦查: 法学: 提纲 互联网大数据的研究价值及关注点 互联网大数据中的关键技术 一个应用例子 QA 互联网大数据的范畴 关键技术1 互联网大数据采集 提升爬虫采集的并行度 爬虫的可靠性、容错性 突破爬虫封锁 非Web页面类型的信息获取 关键技术2 互联网大数据提取 针对各种不同页面,准确地寻找页面中的正文信息。挑战在于:即使是同一个网站的页面,页面布局也会发生变化,技术上的自适应就变得很重要。 网络探针方式获得的原始数据实际上是网络上传输的字节码,所有进出某个网络节点的数据都混杂在一起,由于流量数据巨大、数据加密以及未知协议等原因,使得数据的还原和内容提取变得很困难。 关键技术3 大数据结构化处理 解决弱规范性问题 文本内容的结构化 命名实体识别 新词 关键技术4 大数据语义技术 文本类型的数据占主要部分,词汇是文本型数据最基本的组成和运算单位。 其他类型的互联网大数据,如视频、图片等最终也可以归结为词汇的运算。 词汇级别的语义技术 句子级别的语义分析技术 篇章级别的语义分析技术 关键技术5 大数据分析的模型与算法 分析算法则包含分类算法、聚类算法、相关性计算、预测算法等,每种算法中都有一些经典的方法。 互联网大数据独有的特点,对模型与算法提出的挑战性问题: 不规范、用词灵活 数据类型多导致基本运算需要重新定义,如位置相似性、网络相似性等 动态性强,模式变化快 数据量巨大,需要这些经典算法在设计和实现时要充分考虑对巨量数据运算的支持,分布式、集群计算环境下的分析算法实现则是解决问题的重点。 关键技术6 隐私保护 在互联网时代,动态隐私更是每个人所应当关注的。 位置隐私保护,个性化服务与个人敏感信息的平衡 社交网络隐私保护。在社交网络应用中,每个人的朋友关系都会被记录下来。 评论信息隐私保护。用户在发表评论时,个人的评论时间、表达方式、情感因素等都体现在所写的评论信息中。 具备隐私保护能力的互联网应用更具有生命力 关键技术7 大数据技术平台 存储平台 计算平台 分析挖掘平台 数据可视化技术 集成平台 提纲 互联网大数据的研究价值及关注点 互联网大数据中的关键技术 一个应用例子 QA 股票网络论坛中的用户行为分析挖掘 寻找股票市场新的指标和因子 新媒体下的市场监管 股票网络论坛中的信息是否有价值? 股票网络论坛中,哪些信息可能与市场有一定的相关 帖子数量 投资者情绪 讨论的话题及其热度 关键人物、意见领袖 不同市场的特征表现及其原因的分析 建立一套股票网络论坛信息处理的关键技术和实现框架 相关的研究情况 跨学科研究: 计算机领域 股票网络论坛信息自动采集、过滤、存储;文本信息处理;情绪量化;意见领袖;热点话题分析等。 金融领域 个股特征和市场特征的选择策略; 股票市场异象; 不同市场的比较; 新媒体量化特征与市场的相关性分析、实证、检验与政策建议。 股票网络论坛信息采集 帖子数多 每天新增量大 需要从HTML中提取有用的信息 国内外论坛 投资者情绪
文档评论(0)