[发明专利]一种基于Doc2vec的相似实体挖掘方法在审

申请号：	201711216768.2	申请日：	2017-11-28
公开（公告）号：	CN107832306A	公开（公告）日：	2018-03-23
发明（设计）人：	李石君;刘杰;杨济海;李号号;余伟;余放;李宇轩	申请（专利权）人：	武汉大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙)42222	代理人：	鲁力
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于自然语言处理中的相似文档挖掘问题，涉及到词嵌入表达、文档关键词提取、文档嵌入表达、高维空间中最近邻快速计算等技术领域。本发明提出了一种基于Doc2vec的相似实体挖掘方法。通过实体的描述文档，使用Word2vec词嵌入表达、TFIDF文档关键词提取、使用Doc2vec将实体描述文档转换为连续稠密的向量，使用Balltree数据结构，高效的挖掘相似实体。
搜索关键词：	一种基于 doc2vec 相似实体挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于Doc2vec的相似实体挖掘方法，其特征在于，包括以下步骤：步骤1，对通用语料进行分词，使用Skip‑gram模型计算词向量，该模型的目标函数是Jθ=1TΣt=1TΣ-n≤j≤n,j≠0logp(wt+|wt)]]>其中，p(wt+j|wt)表示在文本中，已知位置t的词语是wt时，位置t+j的词语是wt+j的后验概率，通过softmax函数求得p(wt+j|wt)=exp(vwtTvwt+j′)Σwi∈Vexp(vwtTvwt+j′)]]>其中，V表示所有词语组成的词汇表，表示词语wi在嵌入层的向量表示，为其转置，表示词语wi的在输出层的向量表示；使用Adam优化器对目标函数进行迭代优化，使用hierarchical softmax方法加速模型的训练；步骤2，对实体描述文档进行分词与词性标注，并使用TF‑IDF算法计算文档关键词及权重，词语wi在文档dj中的权重weighti，j＝TFi，j×IDFi其中，TFi，j表示词频，即词语i在文档j中的出现的次数，DFi表示文档频率，即包含词语i的文档的个数，IDF为DF的对数的倒数IDFi=1log(DFi)]]>通过词语在文档中的位置positioni，j与词语词性POS对权重进行修正weight′i，j＝weighti，j×positioni，j×POS计算出每篇文档中每个词的权重weight′i，j后，对权重按从大到小排序，取topK个词作为文档关键词；步骤3，根据步骤1中词向量与步骤2中文档关键词及权重，计算文档向量并进行归一化，其中，文档向量的值由其topK个关键词集合Keydj中词语的向量加权求得vdj=Σwi∈Keydjweighti,j′*vwi]]>对文档向量进行归一化基于以下公式：vdj,=vdjvdjTvdj]]>上式中与其转置与相乘得到该向量的长度，用该向量除以其长度得到长度为1且方向与之前相同的归一化之后的文档向量步骤4，使用文档向量，进行相似实体挖掘，实体的相似性通过实体对应的文档向量的欧式距离表示，向量a与向量b的欧式距离为(a‑b)T(a‑b)使用以上的欧式距离计算公式，文档di与dj的欧式距离为(di,dj)=(vdi,norm-vdj,norm)T(vdi,norm-vdj,norm)]]>的模为1，因此distance(di，dj)在[0，2]间，通过欧式距离计算出位于[0，1]之间的相似性similarity(di,dj)=1-distance(di,dj)2.]]>

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711216768.2/，转载请声明来源钻瓜专利网。

上一篇：用于生成信息的方法和装置
下一篇：基于无向图与单层神经网络的中文分词方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Doc2vec的相似实体挖掘方法在审

专利文献下载