[发明专利]融入词语信息的中文拼写纠错方法有效

专利信息
申请号: 202210850675.X 申请日: 2022-07-19
公开(公告)号: CN115169331B 公开(公告)日: 2023-05-12
发明(设计)人: 车万翔;王重元;赵妍妍;刘挺 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F40/232 分类号: G06F40/232;G06F40/211;G06F40/289;G06F40/30;G06N3/0442;G06N3/045;G06N3/08
代理公司: 哈尔滨华夏松花江知识产权代理有限公司 23213 代理人: 岳昕
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融入 词语 信息 中文 拼写 纠错 方法
【权利要求书】:

1.融入词语信息的中文拼写纠错方法,其特征在于包括以下步骤:

步骤一:获取文本纠错数据,所述文本纠错数据包括待检错句子和纠正后句子;

步骤二:对待检错句子进行分词,得到分词结果;

步骤三:将待检错句子和分词结果作为输入,将纠正后句子作为输出,训练纠错模型;

步骤四:利用训练好的纠错模型进行中文拼写纠错;

所述纠错模型为融入词语信息的中文拼写纠错模型,所述融入词语信息的中文拼写纠错模型具体执行如下步骤:

步骤1:利用预训练模型对输入句子中的每个字进行编码,得到字表示;

步骤2:利用双向长短时记忆网络将字表示转换为双向上下文字表示;

步骤3:获取输入句子的分词结果,并依据输入句子的分词结果以及双向上下文字表示得到词表示;

依据输入句子的分词结果以及双向上下文字表示得到词表示具体为:

取出词语中每一个字的双向上下文字表示向量,使用词尾字向量减去词首字向量,所得结果即为词表示;

所述使用词尾字向量减去词首字向量具体为:使用词语中最后进入LSTM的字的隐向量减去词语中最先进入LSTM的字的隐向量;

步骤4:将字表示与词表示进行拼接,得到包含词语信息的字向量;

步骤5:基于包含词语信息的字向量,并通过线性层得到纠错结果。

2.根据权利要求1所述的融入词语信息的中文拼写纠错方法,其特征在于所述分词通过分词模型进行。

3.根据权利要求1所述的融入词语信息的中文拼写纠错方法,其特征在于所述预训练模型为BERT。

4.根据权利要求1所述的融入词语信息的中文拼写纠错方法,其特征在于所述双向上下文字表示为:

{D1,…,Dt}=BiLSTM({C1,…,Ct})

其中,{C1,…,Ct}为字表示。

5.根据权利要求4所述的融入词语信息的中文拼写纠错方法,其特征在于所述词表示为:

Wk=Dj-Di

其中,k为当前词的位置,j为词尾字的位置,i为词首字的位置。

6.根据权利要求5所述的融入词语信息的中文拼写纠错方法,其特征在于所述包含词语信息的字向量表示为:

Ei=concatanate(Wk+Di)。

7.根据权利要求6所述的融入词语信息的中文拼写纠错方法,其特征在于所述纠错结果表示为:

{A1,…,Ak}=Linear(E1,…,Et})。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210850675.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top