[发明专利]一种基于Doc2vec的相似实体挖掘方法在审
申请号: | 201711216768.2 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107832306A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 李石君;刘杰;杨济海;李号号;余伟;余放;李宇轩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于自然语言处理中的相似文档挖掘问题,涉及到词嵌入表达、文档关键词提取、文档嵌入表达、高维空间中最近邻快速计算等技术领域。本发明提出了一种基于Doc2vec的相似实体挖掘方法。通过实体的描述文档,使用Word2vec词嵌入表达、TFIDF文档关键词提取、使用Doc2vec将实体描述文档转换为连续稠密的向量,使用Balltree数据结构,高效的挖掘相似实体。 | ||
搜索关键词: | 一种 基于 doc2vec 相似 实体 挖掘 方法 | ||
【主权项】:
一种基于Doc2vec的相似实体挖掘方法,其特征在于,包括以下步骤:步骤1,对通用语料进行分词,使用Skip‑gram模型计算词向量,该模型的目标函数是Jθ=1TΣt=1TΣ-n≤j≤n,j≠0logp(wt+|wt)]]>其中,p(wt+j|wt)表示在文本中,已知位置t的词语是wt时,位置t+j的词语是wt+j的后验概率,通过softmax函数求得p(wt+j|wt)=exp(vwtTvwt+j′)Σwi∈Vexp(vwtTvwt+j′)]]>其中,V表示所有词语组成的词汇表,表示词语wi在嵌入层的向量表示,为其转置,表示词语wi的在输出层的向量表示;使用Adam优化器对目标函数进行迭代优化,使用hierarchical softmax方法加速模型的训练;步骤2,对实体描述文档进行分词与词性标注,并使用TF‑IDF算法计算文档关键词及权重,词语wi在文档dj中的权重weighti,j=TFi,j×IDFi其中,TFi,j表示词频,即词语i在文档j中的出现的次数,DFi表示文档频率,即包含词语i的文档的个数,IDF为DF的对数的倒数IDFi=1log(DFi)]]>通过词语在文档中的位置positioni,j与词语词性POS对权重进行修正weight′i,j=weighti,j×positioni,j×POS计算出每篇文档中每个词的权重weight′i,j后,对权重按从大到小排序,取topK个词作为文档关键词;步骤3,根据步骤1中词向量与步骤2中文档关键词及权重,计算文档向量并进行归一化,其中,文档向量的值由其topK个关键词集合Keydj中词语的向量加权求得vdj=Σwi∈Keydjweighti,j′*vwi]]>对文档向量进行归一化基于以下公式:vdj,=vdjvdjTvdj]]>上式中与其转置与相乘得到该向量的长度,用该向量除以其长度得到长度为1且方向与之前相同的归一化之后的文档向量步骤4,使用文档向量,进行相似实体挖掘,实体的相似性通过实体对应的文档向量的欧式距离表示,向量a与向量b的欧式距离为(a‑b)T(a‑b)使用以上的欧式距离计算公式,文档di与dj的欧式距离为(di,dj)=(vdi,norm-vdj,norm)T(vdi,norm-vdj,norm)]]>的模为1,因此distance(di,dj)在[0,2]间,通过欧式距离计算出位于[0,1]之间的相似性similarity(di,dj)=1-distance(di,dj)2.]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711216768.2/,转载请声明来源钻瓜专利网。
- 上一篇:用于生成信息的方法和装置
- 下一篇:基于无向图与单层神经网络的中文分词方法