4-2-3文本数据处理高中信息技术浙教版必修 1 数据与计算.pptx

4-2-3文本数据处理高中信息技术浙教版必修 1 数据与计算.pptx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
编程处数理据4.2.3 文本数据处理文本数据处理是什么目录02文本数据处理的一般过征处理分词分析与处理一、文本数据处理指什么? 实现任何程度或者级别的人工智能所必需的最大突破之一就是拥有可以处理文本数据的机器。值得庆幸的是,全世界文本数据的数量在最近几年已经实现指数级增长。这也迫切需要人们从文本数据中挖掘新知识、新观点。从社交媒体分析到风险管理和网络犯罪保护,处理文本数据已经变得前所未有的重要。简书文章:/p/37e529c8baa9 文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。目前,文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。 论文查重垃圾邮件过滤二、文本数据处理的一般过程 据资料表明,非结构化文本数据占文本数据总量的80%以上,而计算机只认识“符号语言”,并不能直接处理非结构化形式的“自然语言”。二、文本数据处理的一般过程 据资料表明,非结构化文本数据占文本数据总量的80%以上,而计算机只认识“符号语言”,并不能直接处理非结构化形式的“自然语言”。非结构化数据结构化数据文本数据源数据分析分词特征提取结果呈现古代小故事有位书生到亲戚家串门,顷刻间外面就下起雨来,这时天已将晚,他只得打算住下来。但这位亲戚却不乐意,于是就在纸上写了一句话:下雨天留客天留人不留。书生看了,即刻明白亲戚的意思,却又不好明说,就心想一不做、二不休,干脆加了几个标点:下雨天,留客天,留人不?留!亲戚一看,这句话的意思完全反了。也就无话可说,只好给书生安排了住宿。下雨天留客,天留人不留下雨天留客天留人不留下雨天,留客天,留人不?留!三、文本数据处理——分词(1)基于词典的分词方法,也称作基于字符匹配的分词方法,即在分析句子时与词典中的词语进行对比,词典中出现的就划分为词。例如:Python中文分词模块jieba。import jiebadata=“今天是2035年1月1日,星期一,天气晴朗!jg=jieba.cut(data,cut_all=False)jg=/.join(jg) #结果显示print(jg)1. jg = jieba.cut(待分词对象,cut_all=True),全模式2. jg = jieba.cut(待分词对象,cut_all=False), 精确模式3. jg = jieba.cut_for_search(待分词对象),搜索引擎模式file=”英文文本分析.txt”text=open(file).read() #读取文件words=text.split() #把每一行按照空格分词,变成列表print(words)file=”英文文本分析.txt”text=open(file).read()for line in text: #获取每一行 print(words)words=line.split()输出:[“red” , ”apple”] [“The” , ”apple” , ”is”,”red”]输出:[“red” , ”apple”]jieba实例import jiebafile=”中文文本分析.txt”text=open(file).read() words = jieba.lcut(text)#对text分词print(words)import jiebafile=”中文文本分析.txt”text=open(file).read() for line in text: print(words)words = jieba.lcut(line)输出1:[“我” , ”爱” , ”信息技术” , ”信息技术” , “真” , “简单” , “啊”]输出2:[“我” , ”爱” , ”信息技术” , ”信息技术” , “真” , “简单” , “啊”] [“不” , “,” , “那是” , “你” , “觉得”]三、文本数据处理——分词(2)基于统计的分词方法,统计分词的思想是依据上下文中相邻字出现的频率统计,同时出现的次数越高就越可能组成一个词。在实际应用中,一般是将其与基于词典的分词方法结合使用。(3)基于规则的分词方法,通过让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。由于中文语言知识的笼统性、复杂性,这种分词方法目前还处于试验阶段。名称简介Jieba分词Python开源项目IKAnalyzerJava开源分词工具包NLPIR北京理工大学大数据搜索与挖掘实验室,非商业应用免费语言云哈尔滨工业大学社会计算与信息检

文档评论(0)

K12精品教育资源分享 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年03月20日上传了教师资格证

1亿VIP精品文档

相关文档