[发明专利]一种基于文本化词向量的中文语法错误检测方法有效
申请号: | 201810735068.2 | 申请日: | 2018-07-06 |
公开(公告)号: | CN108959260B | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 李思;赵建博;李明正;徐雅静 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 循环神经网络 语法错误检测 文本矩阵 错误性 文本化 中文 词语 前向神经网络 信息处理领域 上下文信息 错误位置 语法检测 向量化 再利用 掩码 推断 文本 重建 | ||
本发明公开了一种中文语法错误检测方法及装置,属于信息处理领域。该方法的特征包括:先对输入的文本词语向量化,连接形成文本矩阵;再利用循环神经网络形成关于词向量中各分量重要程度的掩码;重建文本矩阵;利用循环神经网络提取上下文信息;利用前向神经网络计算各个词语错误性得分;使用错误性得分推断错误位置。本发明通过结合基于文本化词向量,使得中文语法检测效果得到提升,具有很大的使用价值。
技术领域
本发明涉及信息处理领域,特别涉及一种基于神经网络的中文语法错误检测方法。
背景技术
中文语法错误检测是中文自然语言处理中的比较新的任务,目的是判断非中文母语的人所写的语句是否有错,并且给出错误信息。
目前最普遍的中文语法错误检测方法是把错误检测任务作为一个有监督的序列标注任务来完成。比较常见的语法错误检测有N-Gram、循环神经网络等。但是这些网络都十分依赖人工设计的特征,需要比较多的人工特征的加入。最近,由于神经网络可以自己学习文本的特征以代替复杂的人工特征,所以很多工作都在尝试将神经网络应用于中文语法错误检测。但是大部分的工作没有很好的利用中文词汇所表达的信息,忽略了同一词语在不同文本下意义可能会有所不同。而本发明为了解决上述的问题,采用了循环神经网络得到词向量中各分量重要程度的掩码,再利用循环神经网络,得到了较好的错误检测效果。
发明内容
为了解决现有的技术问题,本发明提供了一种基于神经网络的中文语法错误检测方法。方案如下:
步骤一,我们将输入文本的每个词语都映射为词向量,将文本参数化,将输入的文本映射为一个文本矩阵。
步骤二,我们使用一个循环神经网络对文本矩阵进行处理,得到关于词向量分量在文本中重要程度的掩码。
步骤三,对文本矩阵使用词向量分量在文本中重要程度的掩码进行处理,得到重建的词向量表示的文本矩阵。
步骤四,我们将重建的词向量表示的文本矩阵进行输入循环神经网络进行处理,得到文本中各个词向量的特征表示。
步骤五,我们对文本中各个词向量的特征表示进行处理,特征表示经过一个前向神经网络得到各个词语的错误性得分;
步骤六,在整个文本层面对各个词语的错误性得分进行推断,得到错误词语信息。
附图说明
图1是本发明提供的中文语法错误检测的网络结构图
图2为长短期记忆网络单元的内部结构图
具体实施方式
接下来将对本发明的实施方案作更详细的描述。
图一是本发明提供的错误检测方法的网络结构图,其中包括:
步骤S1:输入的文本词语向量化;
步骤S2:循环神经网络形成关于词向量中各分量重要程度的掩码;
步骤S3:文本矩阵重建;
步骤S4:循环神经网络提取上下文信息;
步骤S5:前向神经网络计算各个词语错误性得分;
步骤S6:使用错误性得分推断错误位置;
下面将对每个步骤进行具体的说明:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810735068.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新词发现方法及系统
- 下一篇:基于自然语言的试卷主观题判题装置及方法