[发明专利]融入词语信息的中文拼写纠错方法有效

申请号：	202210850675.X	申请日：	2022-07-19
公开（公告）号：	CN115169331B	公开（公告）日：	2023-05-12
发明（设计）人：	车万翔;王重元;赵妍妍;刘挺	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/211;G06F40/289;G06F40/30;G06N3/0442;G06N3/045;G06N3/08
代理公司：	哈尔滨华夏松花江知识产权代理有限公司 23213	代理人：	岳昕
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	融入词语信息中文拼写纠错方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.融入词语信息的中文拼写纠错方法，其特征在于包括以下步骤：

步骤一：获取文本纠错数据，所述文本纠错数据包括待检错句子和纠正后句子；

步骤二：对待检错句子进行分词，得到分词结果；

步骤三：将待检错句子和分词结果作为输入，将纠正后句子作为输出，训练纠错模型；

步骤四：利用训练好的纠错模型进行中文拼写纠错；

所述纠错模型为融入词语信息的中文拼写纠错模型，所述融入词语信息的中文拼写纠错模型具体执行如下步骤：

步骤1：利用预训练模型对输入句子中的每个字进行编码，得到字表示；

步骤2：利用双向长短时记忆网络将字表示转换为双向上下文字表示；

步骤3：获取输入句子的分词结果，并依据输入句子的分词结果以及双向上下文字表示得到词表示；

依据输入句子的分词结果以及双向上下文字表示得到词表示具体为：

取出词语中每一个字的双向上下文字表示向量,使用词尾字向量减去词首字向量，所得结果即为词表示；

所述使用词尾字向量减去词首字向量具体为：使用词语中最后进入LSTM的字的隐向量减去词语中最先进入LSTM的字的隐向量；

步骤4：将字表示与词表示进行拼接，得到包含词语信息的字向量；

步骤5：基于包含词语信息的字向量，并通过线性层得到纠错结果。

2.根据权利要求1所述的融入词语信息的中文拼写纠错方法，其特征在于所述分词通过分词模型进行。

3.根据权利要求1所述的融入词语信息的中文拼写纠错方法，其特征在于所述预训练模型为BERT。

4.根据权利要求1所述的融入词语信息的中文拼写纠错方法，其特征在于所述双向上下文字表示为：

{D¹,…,D^t}＝BiLSTM({C¹,…,C^t})

其中，{C¹,…,C^t}为字表示。

5.根据权利要求4所述的融入词语信息的中文拼写纠错方法，其特征在于所述词表示为：

W^k＝D^j-Dⁱ

其中，k为当前词的位置，j为词尾字的位置，i为词首字的位置。

6.根据权利要求5所述的融入词语信息的中文拼写纠错方法，其特征在于所述包含词语信息的字向量表示为：

Eⁱ＝concatanate(W^k+Dⁱ)。

7.根据权利要求6所述的融入词语信息的中文拼写纠错方法，其特征在于所述纠错结果表示为：

{A¹,…,A^k}＝Linear(E¹,…,E^t})。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210850675.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载