课时4 文本数据处理 课件(共50张ppt)浙教版(2019)必修1.pptxVIP

课时4 文本数据处理 课件(共50张ppt)浙教版(2019)必修1.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

课时4文本数据处理;1.了解文本数据处理的一般过程和方法。

2.掌握分词的方法和技巧。;;;1.文本数据处理主要应用在__________、情报分析、自动摘要、自动校对、论文查重、__________、______________、__________、自动应答等方面。

2.文本内容是__________的数据,需将文本从无结构的原始状态转化为结构化。

3.典型的文本处理过程主要包括:______、__________、__________、__________等。

(1)分词

中文分词是中文文本信息处理的基础,机器翻译、全文检索等涉及中文的相关应用中都离不开中文分词。

分词是将连续的字序列按照一定的规范重新组合成词序列的过程,也就是将一个汉字序列切分成一个一个单独的词。;常见的分词方法有:①基于词典;②基于统计;③基于规则。

常见的分词系统有;(2)特征提取

一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数自动选取特征等。目前大多采用评估函数进行特征提取的方式,评估函数大多是基于概率统计设计的,这就需要用庞大的训练数据集才能获得对分类起关键作用的特征。随着深度学习、大数据分析等技术的发展,文本特征提取将更加准确、科学。;4.文本数据分析与应用

在取得特征词后,对文本的分析就需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。

(1)标签云

标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。广泛应用于报纸、杂志等传统媒体和互联网。

(2)文本情感分析

文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。文本情感分析主要应用于网络舆情监控、用户评论、分析与决策、信息预测等众多领域。;;例1Python中文分词模块jieba采用的分词方法属于()

A.基于词典 B.基于统计

C.基于规则 D.以上都有可能

;;;;例32022年10月16日,习近平总书记在中国共产党第二十次全国代表大会上作了《高举中国特色社会主义伟大旗帜为全面建设社会主义现代化国家而团结奋斗》的报告,大会后全文发表。现将??报告内容存储在“new.txt”文件中,经程序处理后的数据保存为“newfc.txt”文件。分别如图a、图b所示。

;(1)处理文件“new.txt”中的数据生成“newfc.txt”文件的过程,一般称为。?

(2)编写如下Python程序,读取“newfc.txt”文件的数据,并统计其中各词语(2个及以上汉字构成)出现的次数,在画线位置填写合适的代码,完善程序。

importpandasaspd

f=open(newfc.txt,r,encoding=utf-8).read()#读取文件

words=f.split()

#利用空格、换行符将字符串f分割成列表

counts={};#建立空字典,用于存放词语及其出现的次数

forwordinwords:#统计其中各词语(2个及以上汉字构成)出现的次数

if①:?

ifwordnotincounts:

counts[word]=0

②?

#利用字典生成相应的Series,根据值降序排列

s=pd.Series(③).sort_values(ascending=False)?

foriin④:?

#从高到低输出出现次数最多的10个词语

print(i);;变式训练3在网上搜索朱自清的《绿》文章,如图所示。;(3)制作标签云的代码如下:

importcollections

importjieba

importwordcloudaswc

importnumpyasnp

fromPILimportImage

wcg=wc.WordCloud(background_color=white,font_path=assets/msyh.ttf)

text=open(data/绿.txt,encoding=utf-8).read();seg_list=?

f=collections.Counter(seg_list)

wcg.fit_words(f)

wcg.to_file(output/b.png)

划线处语句是调用jieba对象的cut函数对变量为text文件进行分词,则该处语句为。?;;;;2.下列关于中文分词方法的描述中,属于基于词典的分词方法的是()

A.在分析句子时与词典中的词语进行对比,词典中

您可能关注的文档

文档评论(0)

中小学教学资料 + 关注
实名认证
服务提供商

小学、初中、高中信息科技教案、试卷、课件等教学资源

1亿VIP精品文档

相关文档