[发明专利]基于注意力模型的语言输入关联性检测方法有效

申请号：	201710501293.5	申请日：	2017-06-27
公开（公告）号：	CN107358948B	公开（公告）日：	2020-06-09
发明（设计）人：	俞凯;曹迪	申请（专利权）人：	上海交通大学;苏州思必驰信息科技有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16;G10L15/18;G06F3/023
代理公司：	上海交达专利事务所 31201	代理人：	王毓理;王锡麟
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力模型语言输入关联性检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于注意力模型的语言输入关联性检测方法，通过采集训练语言模型所需的训练语料并进行预处理，并对语料中的每个词序列数据进行标注；然后使用标注后的训练序列对语言模型中的循环神经网络进行训练，再采用训练语料中所有数据集合对更新后的语言模型进行训练，当所得到的预测词的概率分布在验证集上是收敛时语言模型训练完成；最后使用训练后的语言模型对输入句子进行评分，从而得到词之间的关系。本发明采用基于注意力(attention)的方式去自动提取预测词与它们的相关关系。同时，在训练词向量时尝试引入语法和语义的信息，让词向量能够隐含更丰富的信息。通过这些技术期望可以提升语言模型的性能。

技术领域

本发明涉及的是一种语音输入领域的技术，具体是一种基于注意力模型的语言输入关联性检测方法。

背景技术

近几年，对于基于循环神经网络的研究越发火热。基于门记忆单元的长短时间记忆神经网络(LSTM)，门控循环单元神经网络(GRU)在自然语言处理的领域被广泛应用。LSTM神经网络中增加了记忆单元、输入门、输出门以及遗忘门，GRU神经网络增加了重置门以及更新门，这些门和记忆单元极大地提升了词与词之间长距离依赖关系建模的效果。

然而，这样的模型仍然有一些局限性。基于门的神经网络对于历史信息的建模，是编码在隐层内的，当需要隐层包含更多信息时，需要增加隐层节点数量，而这会导致整个模型的训练参数线性增长。同时，由于循环神经网络对历史信息的建模是隐含的，对于预测下一个词，模型无法显式给出该词与历史词的相关关系。

发明内容

本发明针对现有技术无法显式给出词之间的相关关系、增加隐藏节点会线性增加整个模型的参数量以及无法完全利用所有的历史信息等等缺陷，提出一种基于注意力模型的语言输入关联性检测方法，在模型中引入额外的控制单元，显式地输入历史序列以及额外信息，使用一种基于注意力(attention)的方式去自动提取预测词与它们的相关关系。同时，在训练词向量时尝试引入语法和语义的信息，让词向量能够隐含更丰富的信息。通过这些技术期望可以提升语言模型的性能。

本发明是通过以下技术方案实现的：

本发明涉及一种基于注意力模型的语言输入关联性检测方法，包括：

步骤S1：采集训练语言模型所需的训练语料并进行预处理。

所述的训练语料，采用但不限于领域相关的多个文字字符组成的句子集合。

所述的预处理，具体包括以下步骤：

①使用预先设置好的词表，即相关领域所有已知词汇的集合，将语料中的词汇转换成其在词表中对应的数字序号；将语料中未出现在词表中的词汇替换成unk，并返回相应序号，即词序列数据。

优选地，如语料中包含中文字符，收集的语料本身一般是不包含空格的，在未知词替换后，以词汇为单位，需要对语料进行分词，将一个句子以空格为分隔符，切成多个词汇片段。

②在语料集合的每个句子中，句首添加开始符号s，并在句尾添加结束符号/s；

③选取出语料集合5～15％的部分数据作为验证集，防止模型过拟合。

可选的，处理数据时，可以只在句末添加s作为分割符号。

步骤S2：对语料中的每个词序列数据进行标注，具体为：

对于语言模型，标注即是需要预测的下一个词语，句子中的词序列是w₁，w₂，…，w_n-1，w_n，则训练序列为w₁，w₂，…，w_n-1，对应的标注序列为w2，…，w_n-1，w_n。