[发明专利]一种基于Doc2vec的相似实体挖掘方法在审
申请号: | 201711216768.2 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107832306A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 李石君;刘杰;杨济海;李号号;余伟;余放;李宇轩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 doc2vec 相似 实体 挖掘 方法 | ||
技术领域
本发明属于自然语言处理中的相似文档挖掘问题,涉及到词嵌入表达、文档关键词提取、文档嵌入表达、高维空间中最近邻快速计算等技术领域。
背景技术
在搜索、机器阅读理解、用户画像、推荐系统等诸多领域内,相似词挖掘、相似文档挖掘以及更具体的相似APP或相似公众号挖掘起着关键的作用。而进行相似挖掘,一种最直接的方法需要先将词语或文档映射一个高维空间中,即词嵌入或文档嵌入。
目前词嵌入(word embeddings)最主流以及最成功的方法是Word2Vec技术。该技术是一种神经概率语言模型,该模型首先由Bengio Y等人提出。神经概率语言模型是想通过上下文来预测下一个词的概率,其认为在文档中一个位置词语的概率分布可以由该位置的上下文词语来确定。通过使目标函数即预测词的概率最大化,该模型的嵌入层的输出结果可以作为词的一种连续稠密向量表达。基于该模型,Mikolov T等人提出了著名的Word2Vec技术,包括CBOW(continuous bag of words)与Skip-gram两种模型。并且基于多层softmax(hierarchical softmax)和负采样(negative sampling,NEG)等方法加快了模型训练。
词嵌入作为自然语言处理中的一种通用方法,用途广泛,特别是其在词语相似性计算中的应用。但是在特定领域内,如用户画像和推荐系统中,用户使用的APP或关注的公众号是刻画用户的重要标签,因此APP或公众号的相似性计算尤为关键,但由于APP或公众号名称的歧义性和有些名称无法通过通用的分词工具从文本中切分出来等因素,使得直接通过word2vec来计算其相似性效果不佳。本发明使用APP或公众号的描述文档训练出的文档向量作为APP或公众号的向量表示,其表示结果相比word2vec信息更具体,且不受名称歧义以及分词的影响。因此在APP或公众号相似性刻画方面表现优于word2vec。
自从word2vec方法出现之后,学术界也在寻求一种文档的连续稠密向量表示方法,即doc2vec。目前主流的doc2vec方法有word2vec+idf,该方法思想是想先通过tf-idf计算文档的关键词,然后通过文档关键词的向量表示得到文档的向量表示。这种方法的其中一个优势是训练出来的文档的向量可以直接和词语的向量做比较。Quoc Le等人通过改变wod2vec的训练方式,提出了一种称为paragraph2vec的方法。该方法在训练词向量时,对于每篇文档,同时训练一个全局的文档向量。文档向量在同一篇文档里面共享,词向量在所有文档中共享。文档向量用于补全局部的词所不能提供的全局文档信息。该方法的缺点是,对于一篇新的文档,要在固定的词向量下重新训练其文档向量,不利于扩展。Kiros等人提出了一种称为Skip-thought Vectors的方法。该方法将word2vec的Skip-gram模型扩展到了句子的层级,其得到的句子的向量表示在自然语言处理的各方面应用都有优秀的表现。Chen M最近提出了一种新的称为doc2vecC的方法。该方法在训练词向量时,引入一个依赖于词分布的正则项,该正则项使常见的词和对上下文预测没有提供信息的词的向量趋于0。之后对文档的所有向量进行简单的求平均就可以得到文档的向量。以该方法训练出的文档向量作为特征做文档分类,在Idmb的数据集上达到了业界最高水平。
在对文档进行向量表示后,就可以通过余弦距离或欧几里得距离等来表示文档之间的相似性。通过按相似性排序可以得到每个文档背会对应的实体的最相似的实体。但是由于实体众多,经常可以达到数亿的级别,分别两两计算实体间的相似性在进行排序计算复杂度太高。因此需要一种特别的数据结构来减少计算复杂度。在KNN中,一种常用的计算最近邻的方式是使用KDTree数据结构来存储数据点。KDTree在构造时,迭代的对数据的每一个轴,寻找其中位点作为切分点将数据分到两个子节点内。这种结构显著的减少了最近邻的计算复杂度,但是随着数据维度的增加,通常当维度达到20以上时,由于维数灾难(curse of dimensionality)的影响,KDTree的计算效率急剧下降。另外一种适合计算高维空间中最近邻的数据结构是Balltree。与KDTree每次通过一个轴切分数据不同的是,Balltree将数据切分到一系列给定中心和半径的超球体中。这使得树在构造时更加复杂,但是计算最近邻时非常高效,即使是在很高的维度下。Dolatshah M等人,对Balltree进行改进,提出Ball*-tree。其在构造时,考虑数据点在空间中的分布,计算效率进一步提高。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711216768.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于生成信息的方法和装置
- 下一篇:基于无向图与单层神经网络的中文分词方法