[发明专利]一种基于不定长上下文的词向量生成方法有效
申请号: | 201710609471.6 | 申请日: | 2017-07-25 |
公开(公告)号: | CN107608953B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 王俊丽;王小敏;杨亚星 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/08 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 不定 长上 下文 向量 生成 方法 | ||
一种基于不定长上下文的词向量生成方法。本发明涉及自然语言处理领域,特别涉及到基于不定长上下文的词向量生成方法。本发明的技术方案提出了一种不定长度的上下文划分策略和基于不定长上下文的词向量生成方法。这种策略利用标点符号把语料库划分成了长度不定,但语义完整的上下文。长度的不固定导致了传统的语言模型无法利用这种上下文生成词向量。为了应对这难题,本文结合卷积神经网络和循环神经网络设计了一个可以处理不定长上下文的语言模型F‑Model。经过实施结果分析,使用标点把语料库划分成语义完整的上下文可以提高词向量的质量。F‑Model具有良好的学习能力,实施得到的词向量蕴含丰富的语义和较好的线性关系。
技术领域
本发明涉及自然语言处理领域,特别涉及到基于不定长上下文的词向量生成方法。
背景技术
在常见的自然语言处理任务中,大多数都是基于词向量来实现的,而且最终的处理结果往往很大程度上依赖于词向量的质量。一般而言,词向量的质量越高,其包含的语义越丰富和精确,也更容易让计算机理解自然语言中的语义,这也从根本上提高了其他自然语言处理任务的处理结果。所以如何生成高质量的词向量是自然语言处理领域中一项基础而又重要的任务,这对后续其他的自然语言处理任务,如机器翻译,词性标注等产生直接又重大的影响。
常用的词向量生成方法中,为了简化问题和计算复杂度,都会把语料库划分成固定长度的上下文单元,但是这种固定长度的上下文并不是完整的语义单元,这造成了上下文的语义缺失或语义混乱。上下文的语义缺失和语义混乱会传递到词向量中,直接导致词向量的语义缺失和语义混乱。
为了解决这种固定上下文带来的词向量语义缺失和语义混乱问题,本文充分利用原始语料信息,利用标点符号把语料库划分为语义相对完整的上下文单元,这样的上下文单元的长度是不确定的,因此传统的基于固定上下文的词向量生成方法将不再适用。
为此,本发明出了一种基于不定长上下文的词向量生成方法。这种方法基于卷积神经网络和循环神经网络,加强了词语之间的长依赖信息。最后实施结果表明,这种方法生成的词向量蕴含更加丰富的语义,词向量之间具有更好的线性关系。
发明内容
本发明要解决的技术问题是提供一种不定长度的上下文划分策略和基于不定长上下文的词向量生成方法。这种策略利用标点符号把语料库划分成了长度不定,但语义完整的上下文,解决传统的语言模型中使用固定长度的上下文带来的语义缺失和混乱问题。基于这种策略划分的不定长上下文的词向量生成方法,利用卷积神经网络和循环神经网络的特点和优势,加强了词语之间的长依赖信息,最终提高生成的词向量的质量。
为达到上述发明目的,本发明提出基于不定长上下文的词向量生成方法,其特征在于,利用标点符号划、概率统计、卷积神经网络和循环神经网络的特点和优势,补全上下文语义完整性,加强词与词之间的长依赖关系,提高词向量的语义蕴含能力。
本发明首先在对语料库进行预处理后,使用标点符号划分上下文,把语料库划分为长度不等,语义完整的上下文单元。然后利用卷积神经网络学习上下文中各词的权重,这权重随后和语料库的全局分布结合生成上下文中各词的最终权重。随后利用这最终权重和词向量计算上下文的向量表达。随后利用上下文的向量表达构建和上下文中每个词之间的一对多映射关系。随后通过随机梯度算法训练模型,并最终获得词向量。
本发明是通过下述技术方案实现的:
(8)文档预处理,获取训练语料库。给定关于某专业领域的一组文档集合,通过词去掉停用词和低频词等预处理技术,获取语料库中的有用信息,进而构成训练语料库。
(9)词频统计,统计语料分布。基于文档中词语出现频率的统计,生成语料库的字典,字典中包含语料库中的词、词的索引和词的频率。
(10)构建训练集,根据训练语料库中的标点符号,把语料库划分成长度不等的上下文,形成训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710609471.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种病历编辑器及其实现方法
- 下一篇:一种单词信息的显示方法及移动终端