[发明专利]一种基于文本化词向量的中文语法错误检测方法有效

申请号：	201810735068.2	申请日：	2018-07-06
公开（公告）号：	CN108959260B	公开（公告）日：	2019-05-28
发明（设计）人：	李思;赵建博;李明正;徐雅静	申请（专利权）人：	北京邮电大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	词向量循环神经网络语法错误检测文本矩阵错误性文本化中文词语前向神经网络信息处理领域上下文信息错误位置语法检测向量化再利用掩码推断文本重建
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种中文语法错误检测方法及装置，属于信息处理领域。该方法的特征包括：先对输入的文本词语向量化，连接形成文本矩阵；再利用循环神经网络形成关于词向量中各分量重要程度的掩码；重建文本矩阵；利用循环神经网络提取上下文信息；利用前向神经网络计算各个词语错误性得分；使用错误性得分推断错误位置。本发明通过结合基于文本化词向量，使得中文语法检测效果得到提升，具有很大的使用价值。

技术领域

本发明涉及信息处理领域，特别涉及一种基于神经网络的中文语法错误检测方法。

背景技术

中文语法错误检测是中文自然语言处理中的比较新的任务，目的是判断非中文母语的人所写的语句是否有错，并且给出错误信息。

目前最普遍的中文语法错误检测方法是把错误检测任务作为一个有监督的序列标注任务来完成。比较常见的语法错误检测有N-Gram、循环神经网络等。但是这些网络都十分依赖人工设计的特征，需要比较多的人工特征的加入。最近，由于神经网络可以自己学习文本的特征以代替复杂的人工特征，所以很多工作都在尝试将神经网络应用于中文语法错误检测。但是大部分的工作没有很好的利用中文词汇所表达的信息，忽略了同一词语在不同文本下意义可能会有所不同。而本发明为了解决上述的问题，采用了循环神经网络得到词向量中各分量重要程度的掩码，再利用循环神经网络，得到了较好的错误检测效果。

发明内容

为了解决现有的技术问题，本发明提供了一种基于神经网络的中文语法错误检测方法。方案如下：

步骤一，我们将输入文本的每个词语都映射为词向量，将文本参数化，将输入的文本映射为一个文本矩阵。

步骤二，我们使用一个循环神经网络对文本矩阵进行处理，得到关于词向量分量在文本中重要程度的掩码。

步骤三，对文本矩阵使用词向量分量在文本中重要程度的掩码进行处理，得到重建的词向量表示的文本矩阵。

步骤四，我们将重建的词向量表示的文本矩阵进行输入循环神经网络进行处理，得到文本中各个词向量的特征表示。

步骤五，我们对文本中各个词向量的特征表示进行处理，特征表示经过一个前向神经网络得到各个词语的错误性得分；

步骤六，在整个文本层面对各个词语的错误性得分进行推断，得到错误词语信息。

附图说明

图1是本发明提供的中文语法错误检测的网络结构图

图2为长短期记忆网络单元的内部结构图

具体实施方式