- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用简历实体模型分析人力资源情况
2022-08-17 72
简介: HR妹子说校招季来了,简历铺天盖地,随便看了几个,不得不说现在的简历实在是太
“卷”了。我就突然很想分析下今年的校招投递的简历的整体情况。无意中发现modelscope里提
供了简历实体识别的模型。提供了对简历里几种重要实体的识别(/#
/models/damo/nlp_raner_named-entity-recognition_chinese-base-resume/summary)可以拿来
用下。 真实的投递简历当然是不能公开的啦,这里就以热心网友提供为公开的简历数据
(/dataset/resume-n
+关注继续查看
我是正文分割线
分析流程
1. 将简历内容调用简历实体识别模型识别实体内容,调用方法参考官方给出的代码范例。
2. 将分析结果存储到hive并进行数据分析。
3. 对接FineBI进行数据展示。
分析结果
我选了三个实体类型:专业、学历、职称 (Emm, 其实很想选学校,但是这个模型不区分学
校和企业)
数据量总共1508条,识别出有专业的有20条,有学历的数据有108条,有职称的数据有695
条。(Emm, 为啥有人不写专业呢)
ODS(hive)=DWS(hive)=APP(mysql)
话不多说,上图:
学历大部分集中在大专以上,本科居多,可能是数据都是在职员工的简历吧,如果是现在的校招
简历,一沓一沓的硕士。
职称看起来都是很高级的职位,可能是数据来源是公开简历,我等小透明也不会去公开简历。
专业集中在经管类,对着职称一票的经理董事,想问下我等码农专业还有机会吗?
最后,说下总体的使用感受吧:
1. 识别准确率还是蛮高的,对行业、学历、职称的识别度较高,几乎没有识别错的,就是跑的有点
慢 (小pc瑟瑟发抖)
2. 单是一个抽取模型,不能将同义词进行归一,如识别出来大学本科、本科、本科学历,对BI还是
有点不够用。
3. 实体类型有点少,ORG类型有点粗,不能区分学校和企业。这个好像是原始训练数据就是这样?
附件
1. 模型调用
from modelscope .pipelines import pipeline
from modelscope .utils.constant import Tasks
import json
ner_pipeline = pipeline (Td_entity_recognition,
result_file = open (./result.txt, w, encoding=utf-8)
with open (./test.txt, r, encoding=utf-8) as f:
for line in f.readlines ():
result = ner_pipeline (line)
result_file.write (json.dumps (result) + \n)
result_file.close ()
2. ner结果
result.txt
3. 生成ODS并导入到hive
ods_f = open (ods.csv, w, encoding=utf-8)
with open (./result.txt, r, encoding=utf-8) as f:
for line in f.readlines ():
output = eval (line).get (output)
print (output)
for type_list in output:
dict_one = {}
dict_one [type_list.get (type)] = type_list.get (span)
name = dict_one.get (NAME, -1)
occupation = dict_one.get (PRO, -1)
您可能关注的文档
- 以字节跳动内部DataCatalog架构升级为例聊业务系统的性能优化.pdf
- 从直播拉流读懂直播链路.pdf
- 七夕节促销策划方案(6篇) .pdf
- NISP测试(一级) _原创精品文档.pdf
- 《有理数的乘方》说课稿(精选2篇) .pdf
- 《什么是最好的教育》的读后感(真题5篇) .pdf
- 【金版教程】2022届高三语文一轮总复习练习 1-2辨析并修改病句b .pdf
- 【可行性报告】2023年食品制造机械相关项目可行性研究报告 .pdf
- 《爱的教育》读书笔记和感人故事10篇 .pdf
- 七年级上册语文第三课《雨的四季》教案5篇 .pdf
- 七年级生物上册第三单元 生物圈中的绿色植物章节训练试卷(含答案详 .pdf
- 七年级数学下册《第八章 二元一次方程组》单元测试卷及答案解析-人教版.pdf
- 【可行性报告】2023年钴盐项目可行性研究分析报告 .pdf
- 《童年的秘密》读书心得5篇 .pdf
- 【同步练习】人教版九年级历史上册 第6课 希腊罗马古典文化(作业).pdf
- 【每课一测卷】沪科粤教版物理八年级下册 6 .pdf
- 《好的教育》读后感800字(精选9篇) .pdf
- 【完整版】2019-2025年中国宽带通讯终端行业错位竞争策略制定与实施研究.pdf
- 《鹊桥仙·纤云弄巧》优秀教学设计(统编版高一必修下)共3篇 .pdf
- LNG计量 _原创精品文档.pdf
最近下载
- 刘芳——本科论文初稿.doc VIP
- 安全培训记录效果评估表全员法律法规培训.docx VIP
- 3.4 透镜的应用(分层练习)2024-2025学年八年级物理上册同步精品课堂(苏科版2024)(解析版).docx VIP
- 《二年级上册美术折纸动物》ppt课件讲义.ppt
- BS EN 16120-2-2017Non-alloy 国外国际标准规范.pdf
- 精卫填海成语神话故事.pptx VIP
- 【生物】蛋白质相关计算课件 2023-2024学年高一上学期生物人教版必修1.pptx VIP
- 四位一体农村长效保洁方案(标书——已中标) .pdf VIP
- 人教版九年级上册化学第六单元测试卷.doc VIP
- 2025届高考语文复习:叠词的作用和表达效果+课件.pptx VIP
文档评论(0)