[发明专利]一种实体词表示学习方法、装置、计算机设备及存储介质在审
申请号: | 202010890302.6 | 申请日: | 2020-08-29 |
公开(公告)号: | CN111967252A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 李夏昕;孙璨;张永平 | 申请(专利权)人: | 深圳呗佬智能有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/35;G06F16/951 |
代理公司: | 深圳市中融创智专利代理事务所(普通合伙) 44589 | 代理人: | 叶垚平;李立 |
地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体词 表示 学习方法 装置 计算机 设备 存储 介质 | ||
1.一种实体词表示学习方法,其特征在于,包括:
爬取互联网上公开的jd数据,以获取目标实体词t;
将目标实体词t表示成和目标实体词t共现的实体词所组成的文档;
用构建的文档训练tf-idf模型;
将文档在tf-idf模型下的向量表示做L1归一,并做维度排序和维度截断;
基于生成向量的维度值做采样,以构建embedding训练语料;
用传统embedding模型在构建的语料上做训练,得到表示模型。
2.根据权利要求1所述的学习方法,其特征在于,所述用构建的文档训练tf-idf模型,包括tf值的计算;所述tf值的计算包括:term frequency=ft,d/S或term frequency=Log(1+ft,d);其中ft,d是实体词t在jt_doc d中出现的频率,S是jd_doc d中所有实体词的总数。
3.根据权利要求1所述的学习方法,其特征在于,所述用构建的文档训练tf-idf模型,还包括idf值的计算,所述tf值采用归一化的方式计算。
4.根据权利要求2所述的学习方法,其特征在于,所述idf值的计算包括:inversedocument frequency=Log(N/nt)或inverse document frequency smooth=Log(N/(1+nt))+1;其中N是集合M中元素的个数,nt是集合M中包含实体词t的文档的个数。
5.根据权利要求1所述的学习方法,其特征在于,所述将文档在tf-idf模型下的向量表示做L1归一并做维度排序和维度截断,包括:
训练的tf-idf模型对M中的每个jt_doc计算其在向量空间中的tfidf向量V;
对V中的每个向量做L1 normaLization,使得一个向量V的所有维度值都大于或等于0.0,且和为1.0;
对V中的每个向量的维度按照其对应的tf-idf值做降序排序;
将V中已经做了降序排序的向量V,从原始长度L1,截断到统一的新长度L2。
6.根据权利要求2所述的学习方法,其特征在于,所述传统embedding模型,包括:word2vector、gLove、fasttext中的任一种。
7.一种实体词表示装置,其特征在于,包括:
数据获取单元,用于爬取互联网上公开的jd数据,以获取目标实体词t;
文档组成单元,用于将目标实体词t表示成和目标实体词t共现的实体词所组成的文档;
构建tf-idf模型单元,用构建的文档训练tf-idf模型;
归一单元,将文档在tf-idf模型下的向量表示做L1归一,并做维度排序和维度截断;
语料单元,用于基于生成向量的维度值做采样,以构建embedding训练语料;
模型训练单元,采用传统embedding模型在构建的语料上做训练,得到表示模型。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的学习方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的学习方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳呗佬智能有限公司,未经深圳呗佬智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010890302.6/1.html,转载请声明来源钻瓜专利网。