用简历实体模型分析人力资源情况-阿里云开发者社区.pdfVIP

用简历实体模型分析人力资源情况-阿里云开发者社区.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用简历实体模型分析人力资源情况 2022-08-17 72 简介: HR妹子说校招季来了,简历铺天盖地,随便看了几个,不得不说现在的简历实在是太 “卷”了。我就突然很想分析下今年的校招投递的简历的整体情况。无意中发现modelscope里提 供了简历实体识别的模型。提供了对简历里几种重要实体的识别(/# /models/damo/nlp_raner_named-entity-recognition_chinese-base-resume/summary)可以拿来 用下。 真实的投递简历当然是不能公开的啦,这里就以热心网友提供为公开的简历数据 (/dataset/resume-n +关注继续查看 我是正文分割线 分析流程 1. 将简历内容调用简历实体识别模型识别实体内容,调用方法参考官方给出的代码范例。 2. 将分析结果存储到hive并进行数据分析。 3. 对接FineBI进行数据展示。 分析结果 我选了三个实体类型:专业、学历、职称 (Emm, 其实很想选学校,但是这个模型不区分学 校和企业) 数据量总共1508条,识别出有专业的有20条,有学历的数据有108条,有职称的数据有695 条。(Emm, 为啥有人不写专业呢) ODS(hive)=DWS(hive)=APP(mysql) 话不多说,上图: 学历大部分集中在大专以上,本科居多,可能是数据都是在职员工的简历吧,如果是现在的校招 简历,一沓一沓的硕士。 职称看起来都是很高级的职位,可能是数据来源是公开简历,我等小透明也不会去公开简历。 专业集中在经管类,对着职称一票的经理董事,想问下我等码农专业还有机会吗? 最后,说下总体的使用感受吧: 1. 识别准确率还是蛮高的,对行业、学历、职称的识别度较高,几乎没有识别错的,就是跑的有点 慢 (小pc瑟瑟发抖) 2. 单是一个抽取模型,不能将同义词进行归一,如识别出来大学本科、本科、本科学历,对BI还是 有点不够用。 3. 实体类型有点少,ORG类型有点粗,不能区分学校和企业。这个好像是原始训练数据就是这样? 附件 1. 模型调用 from modelscope .pipelines import pipeline from modelscope .utils.constant import Tasks import json ner_pipeline = pipeline (Td_entity_recognition, result_file = open (./result.txt, w, encoding=utf-8) with open (./test.txt, r, encoding=utf-8) as f: for line in f.readlines (): result = ner_pipeline (line) result_file.write (json.dumps (result) + \n) result_file.close () 2. ner结果 result.txt 3. 生成ODS并导入到hive ods_f = open (ods.csv, w, encoding=utf-8) with open (./result.txt, r, encoding=utf-8) as f: for line in f.readlines (): output = eval (line).get (output) print (output) for type_list in output: dict_one = {} dict_one [type_list.get (type)] = type_list.get (span) name = dict_one.get (NAME, -1) occupation = dict_one.get (PRO, -1)

文档评论(0)

IT文档大师 + 关注
实名认证
文档贡献者

IT架构师、码农、自由职业者

1亿VIP精品文档

相关文档