[发明专利]一种实体词表示学习方法、装置、计算机设备及存储介质在审
申请号: | 202010890302.6 | 申请日: | 2020-08-29 |
公开(公告)号: | CN111967252A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 李夏昕;孙璨;张永平 | 申请(专利权)人: | 深圳呗佬智能有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/35;G06F16/951 |
代理公司: | 深圳市中融创智专利代理事务所(普通合伙) 44589 | 代理人: | 叶垚平;李立 |
地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体词 表示 学习方法 装置 计算机 设备 存储 介质 | ||
本申请具体公开了一种实体词表示学习方法、装置、计算机设备及存储介质,该方法包括爬取互联网上公开的jd数据,以获取目标实体词t;将目标实体词t表示成和目标实体词t共现的实体词所组成的文档;用构建的文档训练tf‑idf模型;将文档在tf‑idf模型下的向量表示做L1归一,并做维度排序和维度截断;基于生成向量的维度值做采样,以构建embedding训练语料;用传统embedding模型在构建的语料上做训练,得到表示模型。
技术领域
本申请涉及语言处理技术领域,尤其涉及一种基于优化权重采样的人力资源领域实体词表示学习方法、装置、计算机设备及存储介质。
背景技术
现有技术对实体词进行表示时,通常是直接采用和目标实体词T一起在文本中共现的上下文来作为T的表示。比如,当T是一份JD中的job titLe时。通常的做法有两种:
1、用jd正文中的实体词来构建向量空间模型,用tf-idf值或其各变种算法来计算向量的各个维度值,然后将一个job titLe表示为向量空间中的一个向量。
2、把目标实体词T和其上下文context词一起组成句子,构建embedding模型,然后用word2vector,gLove,fasttext等embedding方法训练模型,最后将job titLe表示为embedding空间中的一个向量。
以上所述的两种方法最终目标都是将实体词表示成固定空间中的一个向量,用向量可以实现两个实体词的相似度计算;或者给定是一个实体词,返回和这个实体词在语义上最相似的topn个实体词。
上述的向量空间模型和embedding模型和embedding模型都存在自己固有的缺陷。
向量空间模型计算出来的向量维度通常很高,而且非常稀疏,两个向量之间的相似度计算操作比较缓慢,在实际应用场景中通常需要将向量的维度数量限定在几百的量级,才能满足线上系统的计算效率要求。但是限定维度意味着丢弃有用的信息,对实体的词的表示效果也会打折扣。同时,向量空间模型中的实体词向量通常来说任一个维度的值都有可能出现较高的方差,这会导致两个向量如果有数个维度的值不一样,他们的相似度就会偏低。这与人力资源领域中的数字化应用层面要求不符合。不同实体词之间的差异,用向量空间中的向量来计算时,其变化曲线的走势也非常震荡,不够线性。
用embedding模型计算出来的向量通常是低维稠密向量,计算效率很高。而且不同实体之间的相似度的差异值也比较线性、平滑、具有可比较性。但是各种embedding模型的基本原理都是“一个词的语义由文本中这个词附近的上下文词来描述”。这个基本原理会导致,如果原文本中有一些长尾的低频词或者错词,如果这样的词每次出现的时候都和目标词在同一个上下文窗口中共现,那么这些低频词或者错词会和目标词的相似度非常高。这会导致整个embedding空间中的语义偏移,从而使目标词的表示向量的语义准确性降低。
发明内容
本申请提供了一种实体词表示学习方法,旨在解决上述问题。
第一方面,本申请提供了一种人力资源领域实体词表示学习方法,所述方法包括:
爬取互联网上公开的jd数据,以获取目标实体词t;
将目标实体词t表示成和目标实体词t共现的实体词所组成的文档;
用构建的文档训练tf-idf模型;
将文档在tf-idf模型下的向量表示做L1归一,并做维度排序和维度截断;
基于生成向量的维度值做采样,以构建embedding训练语料;
用传统embedding模型在构建的语料上做训练,得到表示模型。
第二方面,本申请还提供了一种实体词表示装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳呗佬智能有限公司,未经深圳呗佬智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010890302.6/2.html,转载请声明来源钻瓜专利网。