[发明专利]一种基于拼音特征表征的中文纠错方法及系统有效
申请号: | 202110544990.5 | 申请日: | 2021-05-19 |
公开(公告)号: | CN112966496B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 许振兴;曾庆斌;庞洵;朱留锋 | 申请(专利权)人: | 灯塔财经信息有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06N3/04;G06N3/08 |
代理公司: | 北京集智东方知识产权代理有限公司 11578 | 代理人: | 吴倩;龚建蓉 |
地址: | 430040 湖北省武汉市东*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 拼音 特征 表征 中文 纠错 方法 系统 | ||
1.一种基于拼音特征表征的中文纠错方法,其特征在于,包括如下步骤:
S1、构建汉字的拼音模糊集以及根据汉字的拼音模糊集构造含有汉字错别字的中文语句训练样本;每个汉字拼音对应的模糊集包括:该拼音声母对应的模糊声母与该拼音韵母对应的模糊韵母组合成的所有拼音,所述“模糊”是指由于前鼻音和后鼻音区分不清,和/或,平舌音和翘舌音区分不清,和/或,浊音和清音区分不清,和/或,边音和鼻音区分不清而造成的混淆;且含有汉字错别字的中文语句语料包含两种输入序列:汉字字符嵌入序列和拼音字符嵌入序列;
S2、利用上述训练样本进行模型训练,其包括如下步骤:
S21、将上述含有汉字错别字的训练样本的汉字字符嵌入序列和拼音字符嵌入序列分别输入多头注意力模块,再分别根据公式(1)-(2)对应输出训练样本中含有汉字错别字的中文语句的汉字字符嵌入的隐状态序列矩阵Z1和拼音字符嵌入的隐状态序列矩阵Z2;
其中,
且输出该汉字的汉字字符嵌入序列的隐状态序列Z1时,该汉字所处位置的注意力设为0,以将其进行遮掩;在输出拼音字符嵌入序列的隐状态序列Z2时,无需遮掩任何位置的注意力;
S22、根据公式(3)输出含有汉字错别字的中文语句的汉字隐状态序列矩阵Z,所述隐状态序列矩阵Z中的每一个行向量均与含有汉字错别字的中文语句中的一个位置的汉字的隐状态对应,该位置的汉字的隐状态含有该位置汉字的汉字上下文信息和拼音上下文信息;所述汉字上下文信息为该含有汉字错别字的中文语句中,除该位置汉字之外的其余汉字的汉字字符嵌入信息;所述拼音上下文信息为该含有汉字错别字的中文语句中,除该位置汉字之外的其余汉字的拼音字符嵌入信息;
其中,
S23、将隐状态序列矩阵Z导入深度学习模块,并输出结果,且将该输出结果作为新的
S24、重复步骤S21-S23若干次,输出最终的隐状态序列矩阵;
S25、将最终的隐状态序列矩阵的每一行向量分别输入softmax函数,以计算出含有汉字错别字的中文语句中对应位置出现正确汉字的概率;
S26、将每个位置出现正确汉字的概率与正确中文语句中该位置汉字的one-hot输入向量做交叉熵,得出如公式(4)所示的损失函数J:
其中,
S27、计算出上述损失函数J后,对步骤S21-S26中所有可训练参数进行训练,直至模型收敛;
以及S3、提取目标中文语句中汉字的汉字字符嵌入序列和拼音字符嵌入序列,并输入到训练模型中,以得到目标中文语句中每个位置的汉字预测结果,最终获得纠错后的中文语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于灯塔财经信息有限公司,未经灯塔财经信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110544990.5/1.html,转载请声明来源钻瓜专利网。