[发明专利]一种基于word2vec的短文本表示方法有效
申请号: | 201810525103.8 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108804595B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 路永和;张炜婷 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/284;G06F40/289;G06K9/62 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 黄启文 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 word2vec 文本 表示 方法 | ||
本发明涉及一种基于word2vec的短文本表示方法,包括以下步骤:S1:输入经过文本预处理的训练文本集,设置word2vec方法参数,训练得到训练文本集对应的词向量集合;S2:对于每篇文档中的每个词通过词向量之间的余弦距离计算得到该词在整个训练文本集中的一系列相近词;S3:计算每篇文档中的相近词与文档的余弦距离;S4:按照余弦距离从大到小排序,最终选取前n个相近词以及对应的余弦距离形成文档的n个相近词和余弦度量;S5:计算文档中的词和选取的n个相近词在该文档中的权重,形成新的文本表示,输出每一个文档基于word2vec改进后的向量空间表示。
技术领域
本发明涉及计算机科学与技术领域,更具体地,涉及一种基于word2vec的短文本表示方法。
背景技术
在文本挖掘处理中,机器解读样本信息需要先经过文本表示环节,将样本转化为数值。随着自然语言处理范围的不断扩宽和计算机技术的发展,如何使用数值更好地表示文本所代表的语义信息始终是文本处理领域至关重要的研究点之一,因为这直接影响了文本挖掘效果。对于短文本挖掘问题,有效的文本特征表示方法更是研究的难点,尤其是社交平台产生的短文本,不仅具有传统的特征稀疏、语义不完整、一词多义和多词一义等问题,还具有表达随意、新词滥用、数量庞大等特征。
常用的文本表示模型有布尔模型、概率模型和向量空间模型,其中,最常用的文本表示模型是向量空间模型(Vector Space Model),由Gerard Slaton等人在1958年提出。向量空间模型的基本思想是采用向量表示文本,即从训练集中选取部分特征词,然后将每个特征词作为向量空间坐标系的一维,这样文本就被形式化为多维向量空间中的一个向量,其中每个文本都是n维空间中的点,通过向量间的夹角或向量之间的距离就可以衡量文本之间的相似度(台德艺,王俊.文本分类特征权重改进算法[J].计算机工程,2010,36(9):197-199.)。然而向量空间模型具有数据空间表达稀疏且忽略词与词之间语义信息的缺陷,这导致其对短文本的表示能力稍弱。部分学者尝试针对这些缺陷进行修正,如Wang B K等提出一个基于潜在狄利克雷分配和信息增益的strong feature thesaurus(SFT),SFT综合了LDA和IG以提高词汇的权重,从而选择出语义信息更强的特征词(Wang B K,Huang Y F,Yang W X,et al.Short text classification based on strong feature thesaurus[J].JOURNAL OF ZHEJIANG UNIVERSITY-SCIENCE C-COMPUTERSELECTRONICS,2012,13(9):649-659.)。Yang Lili等提出了一种通过结合短文本的词汇和语义特征的语义扩展方法,该方法利用维基百科作为背景知识库以获得词汇的语义特征,基于词汇和语义的组合重新计算特征词权重(Yang L,Li C,Ding Q,et al.Combining Lexical and SemanticFeatures for Short Text Classification[J].Procedia Computer Science,2013,22(0):78-86.)。
2013年,Google的Tomas Mikolov团队发布了一种基于深度学习的开源词向量生成工具——word2vec(Mikolov T,Le Q V,Sutskever I.Exploiting similarities amonglanguages for machine translation[J].arXiv preprint arXiv:1309.4168,2013.Mikolov T,Chen K,Corrado G,et al.Efficient estimation of wordrepresentations in vector space[J].arXiv preprint arXiv:1301.3781,2013.)。该算法能够在较短的时间内从大规模真实文档语料库中学习到高质量的词向量,并用于方便地计算词与词之间的语义相似性。word2vec不仅可以发现词语之间的语义信息,还为向量空间模型在短文本表达稀疏的问题提供了新的解决方案。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810525103.8/2.html,转载请声明来源钻瓜专利网。