[发明专利]一种改进词向量模型的语义计算方法有效
申请号: | 201710452382.5 | 申请日: | 2017-06-15 |
公开(公告)号: | CN107291693B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 刘志煌;刘冶;李宏浩;傅自豪;邝秋华 | 申请(专利权)人: | 广州赫炎大数据科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/30 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 向量 模型 语义 计算方法 | ||
本发明提供一种改进词向量模型的语义计算方法,包括以下步骤:S1:语料预处理;S2:词性标注,对语料预处理后得到的词语进行标注词性;S3:向量初始化,对词性标注后得到的词语和词性进行向量化;S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合;S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;S6:向量获取,获取词语向量和词性向量;S7:向量应用,应用词语向量和词性向量进行语义计算。相比于现有技术,本发明在向量中加入了词性的因素,并对现有的Word2vec模型进行改进。同时,根据该改进后的模型进行了创新的应用,拓展了Word2vec进行语义计算的功能。
技术领域
本发明涉及信息科学领域,具体是一种改进Word2vec词向量模型的语义计算方法及系统。
背景技术
将自然语言交给机器学习算法来处理,需要将语言进行数学化处理,词向量化就是一种方式。进行词向量化最简单的方式为独热码表示法(One-hot Representation),该方法通过创建一个词表库,并对词库中的每个词进行顺序编号来赋予每个词一个向量,向量的分量只有一个1,其他全为0。这种词向量表示法有2个缺点:(1)容易产生维数灾难;(2)不能很好的刻画词与词之间的相似性,即语义鸿沟。为了克服这种缺陷,Hinton在1986年提出分布式表示方法(Distributed Representation),其基本思想是通过训练将每个词映射成一个固定长度的k维实数短向量(k为正整数),然后将所有向量映射到向量空间,每个向量对应空间上的一个点,在空间上计算向量与向量之间的距离,就可以判断它们之间的相似度。分布式表示法的一种生成词向量的方式是利用神经网络算法,该方法通过训练神经网络最终得到词向量和语言模型。Bengio于2003年提出神经网络语言模型(NeuralNetwork Language Model),其核心思想是利用神经网络建立N-Gram语言模型,将每个词表示成一个浮点向量,然后作为神经网络的输入,通过随机梯度算法对神经网络参数进行训练,训练完成之后同时得到语言模型和词向量。
目前比较广泛应用的词向量化方法是基于Word2vec去训练得到词向量模型,Word2vec训练词向量的过程,就是构建一个多层神经网络,然后在给定文本中获得对应的输入和输出,在训练过程中不断修正神经网络中的参数,最终得到词向量。Word2vec的核心模型就是CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型(ContinuousSkip-gram Model),CBOW模型是根据当前词上下文的2n个词来预测当前词(设词窗大小为n),它的输入是周围词向量之和,输出是当前词词向量;而Skip-gram模型是根据当前词本身来预测周围有哪些词,它的输入是当前词词向量,输出是上下文的词向量。传统Word2vec训练词向量的效果,在语义功能上体现为简单的线性关系,比如说:“男人-皇帝=女人-皇后”、“医生-手术=老师-教学”等,正是由于这个特性,使得Word2vec生成的词向量具有初步的语义推理能力。
然而,现有技术中的Word2vec没有充分考虑词性因素,而词性是训练词向量的重要信息,因为词性本身就涵盖了语义信息和语法规则,利用词性信息可以很好的结合词语的搭配顺序、规律和关系,比如形容词后面可以加名词而不能加副词,因而影响了模型对语义的深层理解。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供了一种加入词性向量因素的改进Word2vec词向量模型的语义计算方法及系统。
本发明通过以下的方案实现:一种改进词向量模型的语义计算方法,包括以下步骤:S1:语料预处理,对语料进行清理,规范化,分词操作;
S2:词性标注,对语料预处理后得到的词语进行标注词性;
S3:向量初始化,对词性标注后得到的词语和词性进行向量化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州赫炎大数据科技有限公司,未经广州赫炎大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710452382.5/2.html,转载请声明来源钻瓜专利网。