[发明专利]一种基于Doc2vec的相似实体挖掘方法在审
申请号: | 201711216768.2 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107832306A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 李石君;刘杰;杨济海;李号号;余伟;余放;李宇轩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 doc2vec 相似 实体 挖掘 方法 | ||
1.一种基于Doc2vec的相似实体挖掘方法,其特征在于,包括以下步骤:
步骤1,对通用语料进行分词,使用Skip-gram模型计算词向量,该模型的目标函数是
其中,p(wt+j|wt)表示在文本中,已知位置t的词语是wt时,位置t+j的词语是wt+j的后验概率,通过softmax函数求得
其中,V表示所有词语组成的词汇表,表示词语wi在嵌入层的向量表示,为其转置,表示词语wi的在输出层的向量表示;使用Adam优化器对目标函数进行迭代优化,使用hierarchical softmax方法加速模型的训练;
步骤2,对实体描述文档进行分词与词性标注,并使用TF-IDF算法计算文档关键词及权重,词语wi在文档dj中的权重
weighti,j=TFi,j×IDFi
其中,TFi,j表示词频,即词语i在文档j中的出现的次数,DFi表示文档频率,即包含词语i的文档的个数,IDF为DF的对数的倒数
通过词语在文档中的位置positioni,j与词语词性POS对权重进行修正
weight′i,j=weighti,j×positioni,j×POS
计算出每篇文档中每个词的权重weight′i,j后,对权重按从大到小排序,取topK个词作为文档关键词;
步骤3,根据步骤1中词向量与步骤2中文档关键词及权重,计算文档向量并进行归一化,其中,文档向量的值由其topK个关键词集合Keydj中词语的向量加权求得
对文档向量进行归一化基于以下公式:
上式中与其转置与相乘得到该向量的长度,用该向量除以其长度得到长度为1且方向与之前相同的归一化之后的文档向量
步骤4,使用文档向量,进行相似实体挖掘,实体的相似性通过实体对应的文档向量的欧式距离表示,向量a与向量b的欧式距离为
(a-b)T(a-b)
使用以上的欧式距离计算公式,文档di与dj的欧式距离为
的模为1,因此distance(di,dj)在[0,2]间,通过欧式距离计算出位于[0,1]之间的相似性
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711216768.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于生成信息的方法和装置
- 下一篇:基于无向图与单层神经网络的中文分词方法