大数据应用 - 基于大数据的推荐算法研究.ppt

下载文档 降价啦

19
0
约7.75千字
约 34页
2017-06-08 发布于河南
举报
版权申诉
保障服务

大数据应用 - 基于大数据的推荐算法研究.ppt

1、本文档共34页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据应用 - 基于大数据的推荐算法研究

矩阵分解并行化矩阵规模与运行时间的关系蝉授芋确毙部票半坛如蛆杏晨抉更卫堕倒楔哗晓隅踪乖俯盛仟墨抄闹蔫哀大数据应用 - 基于大数据的推荐算法研究大数据应用 - 基于大数据的推荐算法研究矩阵分解并行化矩阵稀疏度与运行时间的关系弯惦辫棕砸重拨盘愁虱肩围孩丰其牵猪盎盟檬搐处跌雹钎绵呆牺吱牛羌膊大数据应用 - 基于大数据的推荐算法研究大数据应用 - 基于大数据的推荐算法研究矩阵分解并行化分块策略与运行时间的关系分块策略与中间数据量的大小关系争雀埠踪酱惫赦站织葱滚渊雹记酝翼左床茧纸柴锦倚竟档踩氛郑币弗肿舔大数据应用 - 基于大数据的推荐算法研究大数据应用 - 基于大数据的推荐算法研究矩阵分解并行化工作节点数量与运行时间的关系降汇晴装缝聊啤赣师横朗扇专惦趋鞠滴妻皋伺贵鼓醋拢歼旷迹脉邱滔瘸呛大数据应用 - 基于大数据的推荐算法研究大数据应用 - 基于大数据的推荐算法研究总结与展望本文工作对传统的相似度度量方法进行改进提出基于项目标签层次结构的相似度度量方法矩阵分解算法并行化未来展望利用MPI分布式模型并行化矩阵分解模型；实现通过构造传统推荐算法的近似算法把传统推荐算法并行化六龚林件倔乱父计痊螟奶帆鞭裁粘希见毡脚清狡派器死趴椅梯妄维彪您脖大数据应用 - 基于大数据的推荐算法研究大数据应用 - 基于大数据的推荐算法研究谢谢! 呈垢辑捕盆乾砧奴皱汹冀嫁跟来疥古铰浆耸扒狠怔槽猖区验凳译粗甭甜予大数据应用 - 基于大数据的推荐算法研究大数据应用 - 基于大数据的推荐算法研究 * 这里是毕业论文的框架，主要包括以下几个部分课题背景和研究意义（第一第二章，绪论和推荐系统概述） TopKS算法：使用倒排索引数据结构，结合TopK思想，利用改进的余弦距离和皮尔逊相关系数（具体后面会讲）基于项目层次结构相似性的推荐算法：利用项目的层次结构，计算项目之间的相似度矩阵分解的并行化：具体指使用Hadoop技术实现矩阵分解总结与展望：具体指工作的总结和后面的努力方向 * 传统的网络服务，比如分类目录，搜索引擎，已经不能满足人们对信息的需求，才出现了推荐系统推荐系统简介推荐系统如何建模当前推荐算法面临的问题 * 介绍推荐系统如何建模以电子商务为例，里面只有5个用户和4个商品，我们知道用户会对项目进行反馈（显示反馈，隐式反馈），一般都会进行打分（显示反馈信息），那么这样我们就可以得到二维矩阵图中黄色底纹？的格子就是表示对应的用户还没有对相应项目打分。例如红框框住这个就是user4还没有对item2打分，那么现在系统新注册了user6和新添加了商品item5，那么此时他们的反馈信息都是未知，针对user6和item5的信息就称之为冷启动问题，由于不是本文的重点所以只是略提一下。推荐系统还有一个假设：就是用户对项目打分越高说明用户越喜欢这个项目那么好我们现在的目标就是预测出这些？部分表示的分数，然后对？的分数做排序，把分值最高的前k个推荐给用户。可以归结为一句话，我们的任务就把这个评分矩阵中的空缺值给填充那么使用的方法呢就是启发式协同过滤：KNN（K Nearest Neighbor），顾名思义，查找与目标用户最相近用户，用他们的对未知项目的评分来预测目标用户对项目打分（板书原理）基于模型的协同过滤：矩阵分解 * KNN算法介绍以基于用户的推荐为例那么KNN首先就需要找最近的前k个用户，那么怎么找呢，首先得给用户一个描述，一般用用户打分行为来描述用户，这里的打分行为也就是用户对项目的打分向量。然后需要给出一个衡量用户距离的度量，度量方法：余弦距离、皮尔逊相关系数、欧几里得距离、明科夫斯基距离、曼哈顿距离最后，找到前k个最近邻之后怎么根据他的评分预测未知评分呢，常见的公式如，其中rou_e,i, 表示用户e与目标用户的相似度注意这里的k是超参数，需要调参确定 * 矩阵分解原理图目标函数优化方法过拟合问题，加入正则项 * 随着互联网的发展人们进入互联网的代价降低，现在电脑下乡，网费降低，各种网络应用软件的人性化互联网上有了大量用户就有了市场，自然而然推荐的对象也在迅猛增加以往推荐算法的扩展性不强，比如KNN需要在整个用户空间寻找近邻用户 * 介绍ToKS包含哪些 * 通过上面的余弦距离公式和皮尔逊相关系数，我们可以看出它们都满足加性模型，就可以可以通过累加来计算。还有一点，这里的评分都是有范围的，比如[0,r_max]，那么他们的上限就是就是说我们可以计算出相似度的上限这点结合TopK思想可以排除很多不必要的计算 * 什么是倒排索引呢还是用刚开始的评分矩阵，首先我们可以得到然后它对应的倒排索引是倒排索引的主要作用是方便查找 * 首先第一步就是排除那些不可能相