[发明专利]融入词语信息的中文拼写纠错方法有效
申请号: | 202210850675.X | 申请日: | 2022-07-19 |
公开(公告)号: | CN115169331B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 车万翔;王重元;赵妍妍;刘挺 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/211;G06F40/289;G06F40/30;G06N3/0442;G06N3/045;G06N3/08 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融入 词语 信息 中文 拼写 纠错 方法 | ||
1.融入词语信息的中文拼写纠错方法,其特征在于包括以下步骤:
步骤一:获取文本纠错数据,所述文本纠错数据包括待检错句子和纠正后句子;
步骤二:对待检错句子进行分词,得到分词结果;
步骤三:将待检错句子和分词结果作为输入,将纠正后句子作为输出,训练纠错模型;
步骤四:利用训练好的纠错模型进行中文拼写纠错;
所述纠错模型为融入词语信息的中文拼写纠错模型,所述融入词语信息的中文拼写纠错模型具体执行如下步骤:
步骤1:利用预训练模型对输入句子中的每个字进行编码,得到字表示;
步骤2:利用双向长短时记忆网络将字表示转换为双向上下文字表示;
步骤3:获取输入句子的分词结果,并依据输入句子的分词结果以及双向上下文字表示得到词表示;
依据输入句子的分词结果以及双向上下文字表示得到词表示具体为:
取出词语中每一个字的双向上下文字表示向量,使用词尾字向量减去词首字向量,所得结果即为词表示;
所述使用词尾字向量减去词首字向量具体为:使用词语中最后进入LSTM的字的隐向量减去词语中最先进入LSTM的字的隐向量;
步骤4:将字表示与词表示进行拼接,得到包含词语信息的字向量;
步骤5:基于包含词语信息的字向量,并通过线性层得到纠错结果。
2.根据权利要求1所述的融入词语信息的中文拼写纠错方法,其特征在于所述分词通过分词模型进行。
3.根据权利要求1所述的融入词语信息的中文拼写纠错方法,其特征在于所述预训练模型为BERT。
4.根据权利要求1所述的融入词语信息的中文拼写纠错方法,其特征在于所述双向上下文字表示为:
{D1,…,Dt}=BiLSTM({C1,…,Ct})
其中,{C1,…,Ct}为字表示。
5.根据权利要求4所述的融入词语信息的中文拼写纠错方法,其特征在于所述词表示为:
Wk=Dj-Di
其中,k为当前词的位置,j为词尾字的位置,i为词首字的位置。
6.根据权利要求5所述的融入词语信息的中文拼写纠错方法,其特征在于所述包含词语信息的字向量表示为:
Ei=concatanate(Wk+Di)。
7.根据权利要求6所述的融入词语信息的中文拼写纠错方法,其特征在于所述纠错结果表示为:
{A1,…,Ak}=Linear(E1,…,Et})。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210850675.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种混凝土靠船防撞结构及系统
- 下一篇:一种农业种植用晾晒装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置