[发明专利]一种基于弱化语法错误特征表示的中文语法错误更正方法有效
申请号: | 202010636770.0 | 申请日: | 2020-07-03 |
公开(公告)号: | CN111767718B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 李思;梁景贵;陆树栋;李明正;孙忆南 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/129;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 弱化 语法错误 特征 表示 中文 更正 方法 | ||
1.一种基于弱化语法错误特征表示的中文语法错误更正方法,其特征在于,所述方法包含以下步骤:
(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据;
(2)将待纠错文本和正确文本的中文字符,利用相同字典,映射为向量表示,输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵,所述步骤(2)具体包括:2.1)随机初始化字符到字符向量编号的映射索引和字符向量矩阵;2.2)通过映射索引将字符映射为对应的字符编号;2.3)通过各个字符的字符编号取得字符向量矩阵中对应的字符向量;2.4)将字符向量连接,得到各个字符的字符向量列连接而成的数值矩阵;
(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示;
(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布;
(5)使用交叉熵损失函数,计算每一个预测字符的概率分布和真实字符之间的交叉熵损失,用反向传播算法(Back propagation,BP)计算更新网络各层权重。
2.如权利要求1所述的方法中,其特征在于,所述步骤(3)中,将待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示,具体包括:
(3.1)将待纠错文本数值矩阵或上层编码器层的输出输入至当前编码器层,通过多头注意力+全连接网络和上下文注意力+全连接网络分别提取得到待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示;
(3.2)将(3.1)中提取得到的字符特征表示和上下文特征表示输入至语法错误弱化模块,得到当前编码器层对待纠错文本中每一个字符的弱化因子;
(3.3)将(3.1)中提取得到的字符特征表示和上下文特征表示以及(3.2)中得到的弱化因子通过联合方程联合,得到当前编码器层的输出;
(3.4)重复(3.1)~(3.3),得到编码器最终层的输出,并作为待纠错文本的特征表示。
3.如权利要求1所述的方法中,其特征在于,所述步骤(4)中,将待纠错文本的特征表示和正确文本的数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布,具体包括:
(4.1)将正确文本的数值矩阵或上层解码器层的输出输入至当前解码器层中的掩码多头注意力网络,得到当前解码器层中掩码多头注意力网络层的输出;
(4.2)将待纠错文本的特征表示和当前解码器层中掩码多头注意力网络层的输出作为当前解码器层中多头注意力+全连接网络的两个输入,得到当前解码器层的最终输出;
(4.3)重复(4.1)~(4.2),得到解码器最终层的输出;
(4.4)将解码器最终层的输出输入至解码器的线性层,得到线性层的输出,并经过softmax函数计算得到每一个预测字符概率分布。
4.如权利要求1所述的方法中,其特征在于,所述步骤(5)中,使用交叉熵损失函数,计算每一个预测字符概率分布和真实字符之间的交叉熵损失,损失函数计算如下:
其中,T表示正确文本中所包含字符数;t表示解码器当前预测第t个字符;Pt(·)表示当前预测字符概率分布;yt表示当前预测字符对应正确字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010636770.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隧道工程用挖掘设备
- 下一篇:用于红酒中的白藜芦醇提取检测方法