[发明专利]一种基于弱化语法错误特征表示的中文语法错误更正方法有效

申请号：	202010636770.0	申请日：	2020-07-03
公开（公告）号：	CN111767718B	公开（公告）日：	2021-12-07
发明（设计）人：	李思;梁景贵;陆树栋;李明正;孙忆南	申请（专利权）人：	北京邮电大学
主分类号：	G06F40/253	分类号：	G06F40/253;G06F40/129;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于弱化语法错误特征表示中文更正方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于弱化语法错误特征表示的中文语法错误更正方法，其特征在于，所述方法包含以下步骤：

(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据；

(2)将待纠错文本和正确文本的中文字符，利用相同字典，映射为向量表示，输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵，所述步骤(2)具体包括：2.1)随机初始化字符到字符向量编号的映射索引和字符向量矩阵；2.2)通过映射索引将字符映射为对应的字符编号；2.3)通过各个字符的字符编号取得字符向量矩阵中对应的字符向量；2.4)将字符向量连接，得到各个字符的字符向量列连接而成的数值矩阵；

(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示；

(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入，得到每一个预测字符概率分布；

(5)使用交叉熵损失函数，计算每一个预测字符的概率分布和真实字符之间的交叉熵损失，用反向传播算法(Back propagation,BP)计算更新网络各层权重。

2.如权利要求1所述的方法中，其特征在于，所述步骤(3)中，将待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示，具体包括：

(3.1)将待纠错文本数值矩阵或上层编码器层的输出输入至当前编码器层，通过多头注意力+全连接网络和上下文注意力+全连接网络分别提取得到待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示；

(3.2)将(3.1)中提取得到的字符特征表示和上下文特征表示输入至语法错误弱化模块，得到当前编码器层对待纠错文本中每一个字符的弱化因子；

(3.3)将(3.1)中提取得到的字符特征表示和上下文特征表示以及(3.2)中得到的弱化因子通过联合方程联合，得到当前编码器层的输出；

(3.4)重复(3.1)～(3.3)，得到编码器最终层的输出，并作为待纠错文本的特征表示。

3.如权利要求1所述的方法中，其特征在于，所述步骤(4)中，将待纠错文本的特征表示和正确文本的数值矩阵作为解码器的两个输入，得到每一个预测字符概率分布，具体包括：

(4.1)将正确文本的数值矩阵或上层解码器层的输出输入至当前解码器层中的掩码多头注意力网络，得到当前解码器层中掩码多头注意力网络层的输出；

(4.2)将待纠错文本的特征表示和当前解码器层中掩码多头注意力网络层的输出作为当前解码器层中多头注意力+全连接网络的两个输入，得到当前解码器层的最终输出；

(4.3)重复(4.1)～(4.2)，得到解码器最终层的输出；