[发明专利]一种简历文本相似度匹配方法和系统有效
申请号: | 202010954398.8 | 申请日: | 2020-09-11 |
公开(公告)号: | CN112100999B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 吴晓军 | 申请(专利权)人: | 河北冀联人力资源服务集团有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F18/22;G06F40/289;G06F40/30;G06N20/00 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 050000 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 简历 文本 相似 匹配 方法 系统 | ||
1.一种处理文本信息的方法,用于向招聘职位推荐简历,所述方法包括:
获取招聘职位的第一文本和多个简历的第二文本;
解析所述第一文本,从所述第一文本提取数值文本、短文本和自由文本,其中,所述第一文本的数值文本至少包括工作时间、薪资范围,短文本至少包括工作地点、最低学历、职位类别、职位名称,自由文本包括职位描述和职位要求;
解析多个所述第二文本,从每个第二文本提取数值文本、短文本和自由文本,其中,所述第二文本的数值文本包括至少工作时间、期望薪资,短文本至少包括期望工作地点、期望职位类别、期望职位、学历、学校、专业,自由文本至少包括工作经历、项目经历;
计算所述第一文本的数值文本与所述第二文本的数值文本之间的相似度,得到第一相似度,其中,计算所述第一相似度的方法包括,分别将所述第一文本和第二文本的数值文本中的数值映射到预设区间,如果两者属于同一区间,则相似度为1,如果两者属于相邻区间,则相似度为0.5,其他情况,相似度为0;
分别计算所述第一文本的短文本与所述第二文本的短文本之间的相似度,得到第二相似度,其中,计算所述第二相似度的方法包括,基于预先设定的知识图谱规则,为符合规则的短文本之间的相似度赋予规则设定的值,具体地,知识图谱规则是将不同知识体系图谱按照层级划分方式对相似度赋予规则设定的值;
分别计算所述第一文本的自由文本与所述第二文本的自由文本之间的相似度,得到第三相似度,其中,计算所述第三相似度的方法包括,按照现有词典,对所述第一文本和第二文本中的词语进行分词;计算所述分词二阶表达和三阶表达的互信息值,基于互信息值,对所述二阶表达和所述三阶表达进行降序排列,选择排序靠前的二阶表达和三阶表达对所述分词词语进行降序排列,选择排序靠前的多个分词,得到第一分词结果;计算所述第一分词结果中的多个词语左、右邻字的信息熵,基于所述信息熵对符合第一阈值范围的词语进行合并,对符合第二阈值范围的词语进行拆分,得到第二分词结果,将所述第二分词结果加入现有的词典,生成新词词典;根据所述新词词典对职位信息分词,得到第二分词词语;使用TF-IDF过滤所述第二分词词语,保留符合第三阈值范围的词语,得到第三分词词语;根据从多个招聘网站爬取的原始分类词语,统计其出现在每一个第二文本的中的概率,保留符合第四阈值范围的词语,得到第四分词词语;将所述第四分词词语转化为词向量,对所述词向量进行聚类,得到多个词簇,作为生成的主题;将所述第一文本的自由文本和第二文本的自由文本通过预先训练好的基于主题的相似度模型;
计算所述第一相似度、第二相似度以及第三相似度的加权和;以及
将所述加权和按照降序排序,选取排序靠前的第二文本作为推荐简历。
2.如权利要求1所述的方法,其中,所述知识图谱规则至少包括:学历知识、中国地理知识、工作性质知识、职位名称知识、高校知识、专业体系知识。
3.如权利要求1所述的方法,所述计算加权和的公式为:
其中,R代表简历,J代表招聘职位,Sim表示相似度,∑ici*Sim(ki,li)表示计算短文本的每一项之间的相似度,并加权求和,∑jcj*Sim(mj,nj)表示计算数值文本的每一项之间的相似度,并加权求和,λ*Sim(p,q)是计算自由文本之间的相似度,ki表示简历中的短文本第i个属性,li表示职位中的短文本第i个属性,ci是短文本的加权系数,mj表示简历中的数值文本第j个属性,nj表示职位中的数值文本的第j个属性,cj是数值文本的加权系数,p是简历的自由文本,q是职位的自由文本,λ是自由文本的加权系数。
4.如权利要求2所述的方法,所述高校知识包括:判断第二文本和第一文本的学校是否是985、211、一本、二本、其他大学、非大学,分别赋值为1、0.8、0.6、0.4、0.2、0,得到学校分数,如果第二文本的学校分数与第一文本的学校分数之差的绝对值小于预设阈值,则相似度为1,否则为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北冀联人力资源服务集团有限公司,未经河北冀联人力资源服务集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010954398.8/1.html,转载请声明来源钻瓜专利网。