- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
文本数据统计分析Roben2016年2月
大数据变化快体量大种类多结构化半结构化非结构化2017/3/82017/3/822
产业链可视化应用(行业知识)分析技术(行业知识)计算技术数据源2017/3/82017/3/833
数据源n全2017/3/82017/3/844
计算技术n快2017/3/82017/3/855
分析技术2017/3/82017/3/866
1.元搜索及去重2.正文抽取及结构化3.分词及统计分析文本采集与4.新词发现及词包扩展5.关键词提取及自动摘要6.语句短文情感分析7.文本分类及过滤分析8.文本聚类及热点分析9.关联分析及主题追踪10.机器学习及预测分析2017/3/82017/3/877
元搜索及去重n关键字组合n多家搜索引擎聚合n指定网站n困难u动态网页u爬虫封锁u验证码n基于搜索主题的爬取u词包扩展u过滤规则学习u行业知识库积累2017/3/82017/3/888
正文抽取及结构化n抽取识别网页的价值内容n自动剔除u导航性质的网页u网页中的标签与导航u广告等干扰性文字与图片n困难u多样且变化的网页结构n结构化要素u来源,大类别,标题,正文,时间u机构名称、人名、地名和产品名2017/3/82017/3/899
正文抽取结构化2017/3/82017/3/81010
分词及统计分析n词典n停用词n词频统计n词语转移统计Weunderstand80%Autonomyn困难l发展中国家兔的饲养/发展/中国/家兔/的/饲养//发展中国家/兔/的/饲养/l乒乓球拍卖完了/乒乓球/拍卖/完了/乒乓球拍/卖完了/l和服务/和服/务和/服务/2017/3/82017/3/81111
新词与词包扩展人名、机构名、地名、产品名、商标名、简称、省略语苹果小米/毒大米苹果/橘子2017/3/82017/3/81212
关键词提取及自动摘要一、关键词提取法u提取文档中心思想的词汇或短语u方法:词频统计,热词二、自动摘要法(计算步骤)计算词的权值;计算句子的权值;对句子按权值排行,权值最高的句子被选为摘要句;将所有摘要句按照在原文中的出现顺序组合输出。12342017/3/82017/3/81313
语句短文情感分析n两个关键因素u语料知识库u分类算法n情感词典法(计算步骤)对每个句子进行分词;读取情感词典,获得词语的情感强度;用所有词语的正面情感分值减去负面情感分值,得到句子的情感分值;所有句子的情感分值之和,就是整篇短文的情感。2017/3/82017/3/81414
语句短文情感分析n情感词典本体库u情感词库l词性种类(名词、动词、形容词。。。)l情感种类(喜、怒、哀、乐、愁。。。)l情感强度(轻微,一般,严重。。。)l极性种类(中性、正面、负面)l“正面评价”词语,如:好,美,善良,才高八斗。。l“负面评价”词语,如:丑,坏,超标,华而不实。。。u否定词库u程度副词库2017/3/82017/3/81515
文本分类及过滤n预定义指定的规则和示例样本u词表分类法u特征向量分类法n应用u爬取过滤(剔除广告营销招聘信息)u抽取标签(情感强度,行业类别,来源类别)n监督学习算法u示例分类与人工标记2017/3/82017/3/81616
文本分类过程训练过程文本表示训练文本特征表示学习统计分类器统计量新文本文本特征表示类别分类过程2017/3/82017/3/81717
半监督学习分类用户感兴趣信息样本模型机器学习分类结果用户反馈2017/3/82017/3/81818
文本聚类及热点分析n自主发现事物之间的特征并进行区分n未知分类标准与数量,有创造性发现n无监督学习算法n聚类结果不稳定(因素)u聚类方法u变量指标u数据预处理n热点分析u从大规模文档中自动分析出热点,并提供关键特征u基于主题词相关数量u基于内容理解2017/3/82017/3/81919
文本聚类过程1.需要分析的数据集合2.选取聚类特征3.聚合计算后划分类别4.给每个聚类标注关键词2017/3/82017/3/82020
关联分析及主题追踪n从因果关系到经常连结关系n出现关联与语义关联n出现关联分析过程:从频繁集到关联规则n分析结果u关联规则和序列模式n主题追踪(语义关联)u与主题相关的起源与发展路径u信息量趋势与特征u转折点2017/3/82017/3/82121
关联分析示例2017/3/82017/3/82222
机器学习及预测分析n训练-模型-预测2017/3/82017/3/82323
机器学习及预测分析n算法---受益于数据量与计算速度u有监督学习:线性回归,逻辑回归,神经网络,SVM,KNN,贝叶斯,决策树。u无
您可能关注的文档
- 2024年省安庆宿松中学招考聘用教师10人【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 断裂力学讲义()分解课件.ppt
- 2024年省沂南县基力城市规划建设技术咨询服务中心春季招考12名工作人员【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 2024年省泸州兴泸环境科技有限公司社会公开招聘39名优秀人员【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 文雯精品课EXCEL基础知识课件.ppt
- 文言文翻译(高三督导)要点课件.ppt
- 文言文实词推断理解技巧课件.ppt
- 文言文中“之”的用法课件.ppt
- 文艺复兴的影响课件.ppt
- 文献资源的查找和利用课件.ppt
- 国际标准 ISO/IEC TR 19782:2006 EN 信息技术 自动识别和数据采集技术 光泽度和低基底不透明度对条形码符号读取的影响 Information technology — Automatic identification and data capture techniques — Effects of gloss and low substrate opacity on reading of bar code symbols.pdf
- 国际标准 ISO/IEC TR 19782:2006 EN Information technology — Automatic identification and data capture techniques — Effects of gloss and low substrate opacity on reading of bar code symbols 信息技术 自动识别和数据采集技术 光泽度和低基底不透明度对条形码符号读取的影响.pdf
- 国际标准 ISO/IEC TR 10192-2:2000 EN 信息技术 家庭电子系统(HES)接口 第2部分:简单接口类型1 Information technology — Home Electronic Systemes (HES) interfacesPart 2:Simple Interfaces Type 1.pdf
- 国际标准 ISO/IEC TR 10192-2:2000 EN Information technology — Home Electronic Systemes (HES) interfacesPart 2:Simple Interfaces Type 1 信息技术 家庭电子系统(HES)接口 第2部分:简单接口类型1.pdf
- 环保:我们的责任与挑战.pptx
- 2024年江苏南京中医药大学招考聘用5人(人事代理)笔试历年典型考题及考点剖析附答案详解.docx
- 2024年陕西财经职业技术学院专任教师招考聘用42人笔试历年典型考题及考点剖析附答案详解.docx
- [吉安]2023年江西吉安职业技术学院招聘非编教师笔试历年高频考点(难、易错点)附带答案详解.docx
- [南京]2024年江苏南京市玄武区编外教师校医会计招聘50人笔试历年高频考点(难、易错点)附带答案详解.docx
- 2024年河南省定向重庆大学选调应届优秀毕业生5笔试历年典型考题及考点剖析附答案详解.docx
文档评论(0)