- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
余弦定理作为初中课本就学过的知识,AI产品经理将会把它运用到相似度计算当中。
世界上有些事物的联系常常超出人们的想象。
在数据采集及大数据处理的时候,数据排重、相似度计算是很重要的一个环节,由此引入
相似度计算算法。
但你知道我们在初中课本中学过的余弦定理是如何完成相似度计算的吗?
要揭开谜底,我们先来“三步走”。
一、TF-IDF单文本词汇频率/逆文本频率值
1.单文本词汇频率(TF:TermFrequency,是词频一词的英文缩写)
即一个词在文中出现的次数。具体地讲,如果一个查询包含n个关键词,它们在一个特定
网页中的词频分别是:TF1……TFn。
那么,这个查询和该网页的相关性(即相似度)就是:T1+T2+…+Tn。
2.逆文本频率指数(InverseDocumentFrequency,缩写为IDF)
在词频的基础上,要对每个词分配一个“重要性”权重。
最常见的词(“的”、“是”、“在”)给予最小的权重,较常见的词(“中国”“北京
”)给予较小的权重,较少见的词(可能就是文章的主题词)给予较大的权重。
这个权重叫做“逆文本频率”,它的大小与一个词的常见程度成反比。
概括地讲,假定一个关键词w在Dw个网页中出现过,那么Dw越大,w的权重越小,
反之亦然。它的公式为logD/Dw,其中D是全部网页数。
二、特征向量
先看一下特征向量的严格定义吧:
特征向量是数学学科中的一个专业名词,即线性变换的特征向量(本征向量)是一个非退
化的向量。其方向在该变换下不变,该向量在此变换下缩放的比例称为其特征值(本征值
)。一个线性变换通常可以由其特征值和特征向量完全描述,相同特征值的特征向量集
合称之为特征空间。
嗯,这段话看看就好了。我们知道特征向量是有方向的就好了。
接下来我们看看如何把一篇文章或一段话或一句话转换成特征向量。
首先,我们需要有一个词汇表,比如是这样的64000个词:
其次,我们需要把输入的文章或是段落或是语句进行分词。目前市面常用的分词器有很多
,比如结巴分词器、hanlp分词器等,每种分词器都有自己的优缺点,我们知道可以利用
第三方的分词工具帮助我们分词就好了。
然后,就是最重要的一步,结合分词结果,得到一个64000维的向量,比如是这样的:
好了,现在对于每一个输入,无论这篇文章多长,我们都能得到这样一个向量。
例如向量1:[0,0.0034,0,0.00052,0…,0.034,…0.075]。
至此,我们已经完成了最重要的一步,把一篇篇文章变成一串串数字。是不是很有意思?
三、余弦定理:向量距离的度量
好了,回顾一下余弦定理。
只看夹角A。
如果把三角形的两边b和c看成是两个以A为起点的向量,那么上述公式等价于:
现在以两篇文章为例,说明是如何进行计算的。
加入文章1和文章1对应的向量分别是x1,x2,…,x64000和y1,y2,…,y64000。
那么他们夹角的余弦等于:
计算所得的余弦取值在0和1之间,也就是说夹角在0度到90度之间。
现在,结论闪亮登场:
当两篇文章向量夹角的余弦等于1时,这两个向量的夹角为零,两篇文章完全相同;当
夹角的余弦接近于1时两篇文章相似,从而可以归成一类;夹角的余弦越小,夹角越大
,两篇文章越不相关;当两个向量正交时(90度),夹角的余弦为零,说明两篇文章根
本没有相同的主题词,它们毫不相关。
四、余弦定理总结
余弦定理:通过对两个文本分词,TF-IDF算法向量化,对比两者的余弦夹角,夹角越小
相似度越高,但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计
算的代价太大不适合大数据量的计算。
余弦定理的应用非常广泛,我们在做智能问答系统中就用到余弦定理做问题的相似度计算
。
大概原理是这样:用户输入问题1,系统对语料库中的问题进行相似度计算,找出相似度
最高的问题2,然后输出问题2的答案。
可以看看下面的例子:
情况1:完全相同
情况2:相
情况3:不相关
题图来自Unsplash,基于CC0协议
您可能关注的文档
- [AI工具宝典]AI产品经理 VS 数据产品经理,看这5点区别与联系.pdf
- [AI工具宝典]AI产品经理,如何规划AI产品的MVP?.pdf
- [AI工具宝典]AI产品经理必懂的硬知识(一):应用领域篇.pdf
- [AI工具宝典]AI产品经理必修:揭开算法的面纱(隐含马尔可夫).pdf
- [AI工具宝典]AI产品经理必修——揭开算法的面纱(EM算法).pdf
- [AI工具宝典]AI产品经理必修——揭开算法的面纱(贪心算法).pdf
- [AI工具宝典]AI产品经理必知的两类ChatBot详解.pdf
- [AI工具宝典]AI产品经理的必修课:系统化思维.pdf
- [AI工具宝典]AI产品经理的关键性产品思维.pdf
- [AI工具宝典]AI产品经理的价值和未来|学习俞军老师分享有感.pdf
- 2024精简护肤洁面趋势报告-TMIC-30正式版.doc
- 2024捕捉华夏民族珍味-咸味主食与咸味零食创新机遇报告-25正式版.doc
- 2024年秋季部编版小学道德与法治二年级上册全册课件PPT最新.pptx
- 部编版第十一册第四单元拓展提高教学课件.ppt
- 2024年秋季新西师大版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋新人教版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋季新人教版数学一年级上册全册教学课件(新版教材).pptx
- 2024年秋季新人教版数学一年级上册全册课件(新版教材).pptx
- 2024年秋季新人教版一年级上册数学全册教学课件(新版教材).pptx
- 2024年秋季新人教版一年级上册数学全册课件(新版教材).pptx
最近下载
- 《2024年甘肃省职业院校技能大赛中职学生组医药卫生类护理技能赛项样卷3》.pdf
- 双减背景下新课标单元整体作业分层设计案例 人教版小学数学四年级下册第五单元 三角形.docx
- 标准泳池砖的国家标准规格.doc
- 湘科版科学(2017)六年级上册全册全单元教学设计.doc
- 芜湖市湾沚区殡仪馆招聘考试真题及答案2024.docx
- 租房租赁合同电子版(8篇).pdf VIP
- 陕西师范大学-《比较教育学》(专升本)考评作业-含答案.pdf VIP
- 医院进修结业证书(模板).docx
- 专题03 规律探索及新定义问题(4大考点)2022-2024年中考数学真题分类汇编.docx VIP
- GB_T50649-2011《水利水电工程节能设计规范》 局部修订2024版.pdf VIP
文档评论(0)