文本数据统计分析课件.pptxVIP

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文本数据统计分析Roben2016年2月

大数据变化快体量大种类多结构化半结构化非结构化2017/3/82017/3/822

产业链可视化应用(行业知识)分析技术(行业知识)计算技术数据源2017/3/82017/3/833

数据源n全2017/3/82017/3/844

计算技术n快2017/3/82017/3/855

分析技术2017/3/82017/3/866

1.元搜索及去重2.正文抽取及结构化3.分词及统计分析文本采集与4.新词发现及词包扩展5.关键词提取及自动摘要6.语句短文情感分析7.文本分类及过滤分析8.文本聚类及热点分析9.关联分析及主题追踪10.机器学习及预测分析2017/3/82017/3/877

元搜索及去重n关键字组合n多家搜索引擎聚合n指定网站n困难u动态网页u爬虫封锁u验证码n基于搜索主题的爬取u词包扩展u过滤规则学习u行业知识库积累2017/3/82017/3/888

正文抽取及结构化n抽取识别网页的价值内容n自动剔除u导航性质的网页u网页中的标签与导航u广告等干扰性文字与图片n困难u多样且变化的网页结构n结构化要素u来源,大类别,标题,正文,时间u机构名称、人名、地名和产品名2017/3/82017/3/899

正文抽取结构化2017/3/82017/3/81010

分词及统计分析n词典n停用词n词频统计n词语转移统计Weunderstand80%Autonomyn困难l发展中国家兔的饲养/发展/中国/家兔/的/饲养//发展中国家/兔/的/饲养/l乒乓球拍卖完了/乒乓球/拍卖/完了/乒乓球拍/卖完了/l和服务/和服/务和/服务/2017/3/82017/3/81111

新词与词包扩展人名、机构名、地名、产品名、商标名、简称、省略语苹果小米/毒大米苹果/橘子2017/3/82017/3/81212

关键词提取及自动摘要一、关键词提取法u提取文档中心思想的词汇或短语u方法:词频统计,热词二、自动摘要法(计算步骤)计算词的权值;计算句子的权值;对句子按权值排行,权值最高的句子被选为摘要句;将所有摘要句按照在原文中的出现顺序组合输出。12342017/3/82017/3/81313

语句短文情感分析n两个关键因素u语料知识库u分类算法n情感词典法(计算步骤)对每个句子进行分词;读取情感词典,获得词语的情感强度;用所有词语的正面情感分值减去负面情感分值,得到句子的情感分值;所有句子的情感分值之和,就是整篇短文的情感。2017/3/82017/3/81414

语句短文情感分析n情感词典本体库u情感词库l词性种类(名词、动词、形容词。。。)l情感种类(喜、怒、哀、乐、愁。。。)l情感强度(轻微,一般,严重。。。)l极性种类(中性、正面、负面)l“正面评价”词语,如:好,美,善良,才高八斗。。l“负面评价”词语,如:丑,坏,超标,华而不实。。。u否定词库u程度副词库2017/3/82017/3/81515

文本分类及过滤n预定义指定的规则和示例样本u词表分类法u特征向量分类法n应用u爬取过滤(剔除广告营销招聘信息)u抽取标签(情感强度,行业类别,来源类别)n监督学习算法u示例分类与人工标记2017/3/82017/3/81616

文本分类过程训练过程文本表示训练文本特征表示学习统计分类器统计量新文本文本特征表示类别分类过程2017/3/82017/3/81717

半监督学习分类用户感兴趣信息样本模型机器学习分类结果用户反馈2017/3/82017/3/81818

文本聚类及热点分析n自主发现事物之间的特征并进行区分n未知分类标准与数量,有创造性发现n无监督学习算法n聚类结果不稳定(因素)u聚类方法u变量指标u数据预处理n热点分析u从大规模文档中自动分析出热点,并提供关键特征u基于主题词相关数量u基于内容理解2017/3/82017/3/81919

文本聚类过程1.需要分析的数据集合2.选取聚类特征3.聚合计算后划分类别4.给每个聚类标注关键词2017/3/82017/3/82020

关联分析及主题追踪n从因果关系到经常连结关系n出现关联与语义关联n出现关联分析过程:从频繁集到关联规则n分析结果u关联规则和序列模式n主题追踪(语义关联)u与主题相关的起源与发展路径u信息量趋势与特征u转折点2017/3/82017/3/82121

关联分析示例2017/3/82017/3/82222

机器学习及预测分析n训练-模型-预测2017/3/82017/3/82323

机器学习及预测分析n算法---受益于数据量与计算速度u有监督学习:线性回归,逻辑回归,神经网络,SVM,KNN,贝叶斯,决策树。u无

您可能关注的文档

文档评论(0)

173****5125 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体成都风星雨科技文化有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510106MAD5XC008M

1亿VIP精品文档

相关文档