[发明专利]一种基于弱化语法错误特征表示的中文语法错误更正方法有效

专利信息
申请号: 202010636770.0 申请日: 2020-07-03
公开(公告)号: CN111767718B 公开(公告)日: 2021-12-07
发明(设计)人: 李思;梁景贵;陆树栋;李明正;孙忆南 申请(专利权)人: 北京邮电大学
主分类号: G06F40/253 分类号: G06F40/253;G06F40/129;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 弱化 语法错误 特征 表示 中文 更正 方法
【权利要求书】:

1.一种基于弱化语法错误特征表示的中文语法错误更正方法,其特征在于,所述方法包含以下步骤:

(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据;

(2)将待纠错文本和正确文本的中文字符,利用相同字典,映射为向量表示,输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵,所述步骤(2)具体包括:2.1)随机初始化字符到字符向量编号的映射索引和字符向量矩阵;2.2)通过映射索引将字符映射为对应的字符编号;2.3)通过各个字符的字符编号取得字符向量矩阵中对应的字符向量;2.4)将字符向量连接,得到各个字符的字符向量列连接而成的数值矩阵;

(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示;

(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布;

(5)使用交叉熵损失函数,计算每一个预测字符的概率分布和真实字符之间的交叉熵损失,用反向传播算法(Back propagation,BP)计算更新网络各层权重。

2.如权利要求1所述的方法中,其特征在于,所述步骤(3)中,将待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示,具体包括:

(3.1)将待纠错文本数值矩阵或上层编码器层的输出输入至当前编码器层,通过多头注意力+全连接网络和上下文注意力+全连接网络分别提取得到待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示;

(3.2)将(3.1)中提取得到的字符特征表示和上下文特征表示输入至语法错误弱化模块,得到当前编码器层对待纠错文本中每一个字符的弱化因子;

(3.3)将(3.1)中提取得到的字符特征表示和上下文特征表示以及(3.2)中得到的弱化因子通过联合方程联合,得到当前编码器层的输出;

(3.4)重复(3.1)~(3.3),得到编码器最终层的输出,并作为待纠错文本的特征表示。

3.如权利要求1所述的方法中,其特征在于,所述步骤(4)中,将待纠错文本的特征表示和正确文本的数值矩阵作为解码器的两个输入,得到每一个预测字符概率分布,具体包括:

(4.1)将正确文本的数值矩阵或上层解码器层的输出输入至当前解码器层中的掩码多头注意力网络,得到当前解码器层中掩码多头注意力网络层的输出;

(4.2)将待纠错文本的特征表示和当前解码器层中掩码多头注意力网络层的输出作为当前解码器层中多头注意力+全连接网络的两个输入,得到当前解码器层的最终输出;

(4.3)重复(4.1)~(4.2),得到解码器最终层的输出;

(4.4)将解码器最终层的输出输入至解码器的线性层,得到线性层的输出,并经过softmax函数计算得到每一个预测字符概率分布。

4.如权利要求1所述的方法中,其特征在于,所述步骤(5)中,使用交叉熵损失函数,计算每一个预测字符概率分布和真实字符之间的交叉熵损失,损失函数计算如下:

其中,T表示正确文本中所包含字符数;t表示解码器当前预测第t个字符;Pt(·)表示当前预测字符概率分布;yt表示当前预测字符对应正确字符。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010636770.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top