[发明专利]一种基于Doc2vec的相似实体挖掘方法在审

专利信息
申请号: 201711216768.2 申请日: 2017-11-28
公开(公告)号: CN107832306A 公开(公告)日: 2018-03-23
发明(设计)人: 李石君;刘杰;杨济海;李号号;余伟;余放;李宇轩 申请(专利权)人: 武汉大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙)42222 代理人: 鲁力
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于自然语言处理中的相似文档挖掘问题,涉及到词嵌入表达、文档关键词提取、文档嵌入表达、高维空间中最近邻快速计算等技术领域。本发明提出了一种基于Doc2vec的相似实体挖掘方法。通过实体的描述文档,使用Word2vec词嵌入表达、TFIDF文档关键词提取、使用Doc2vec将实体描述文档转换为连续稠密的向量,使用Balltree数据结构,高效的挖掘相似实体。
搜索关键词: 一种 基于 doc2vec 相似 实体 挖掘 方法
【主权项】:
一种基于Doc2vec的相似实体挖掘方法,其特征在于,包括以下步骤:步骤1,对通用语料进行分词,使用Skip‑gram模型计算词向量,该模型的目标函数是Jθ=1TΣt=1TΣ-n≤j≤n,j≠0logp(wt+|wt)]]>其中,p(wt+j|wt)表示在文本中,已知位置t的词语是wt时,位置t+j的词语是wt+j的后验概率,通过softmax函数求得p(wt+j|wt)=exp(vwtTvwt+j′)Σwi∈Vexp(vwtTvwt+j′)]]>其中,V表示所有词语组成的词汇表,表示词语wi在嵌入层的向量表示,为其转置,表示词语wi的在输出层的向量表示;使用Adam优化器对目标函数进行迭代优化,使用hierarchical softmax方法加速模型的训练;步骤2,对实体描述文档进行分词与词性标注,并使用TF‑IDF算法计算文档关键词及权重,词语wi在文档dj中的权重weighti,j=TFi,j×IDFi其中,TFi,j表示词频,即词语i在文档j中的出现的次数,DFi表示文档频率,即包含词语i的文档的个数,IDF为DF的对数的倒数IDFi=1log(DFi)]]>通过词语在文档中的位置positioni,j与词语词性POS对权重进行修正weight′i,j=weighti,j×positioni,j×POS计算出每篇文档中每个词的权重weight′i,j后,对权重按从大到小排序,取topK个词作为文档关键词;步骤3,根据步骤1中词向量与步骤2中文档关键词及权重,计算文档向量并进行归一化,其中,文档向量的值由其topK个关键词集合Keydj中词语的向量加权求得vdj=Σwi∈Keydjweighti,j′*vwi]]>对文档向量进行归一化基于以下公式:vdj,=vdjvdjTvdj]]>上式中与其转置与相乘得到该向量的长度,用该向量除以其长度得到长度为1且方向与之前相同的归一化之后的文档向量步骤4,使用文档向量,进行相似实体挖掘,实体的相似性通过实体对应的文档向量的欧式距离表示,向量a与向量b的欧式距离为(a‑b)T(a‑b)使用以上的欧式距离计算公式,文档di与dj的欧式距离为(di,dj)=(vdi,norm-vdj,norm)T(vdi,norm-vdj,norm)]]>的模为1,因此distance(di,dj)在[0,2]间,通过欧式距离计算出位于[0,1]之间的相似性similarity(di,dj)=1-distance(di,dj)2.]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711216768.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top