[发明专利]一种字词结合的文本自动校对方法有效

申请号：	201910349756.X	申请日：	2019-04-28
公开（公告）号：	CN110134950B	公开（公告）日：	2022-12-06
发明（设计）人：	苏萌;苏海波;王然;檀玉飞;孙伟;高体伟	申请（专利权）人：	北京百分点科技集团股份有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	刘昕;南霆
地址：	100081 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种字词结合文本自动校对方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种字词结合的文本自动校对方法，其特征在于，包括如下步骤：

S1、分别采用如下两种查错方法进行查错：

1)基于n-gram语言模型的查错方法；

2)基于LSTM语言模型的查错方法；

所述基于n-gram语言模型的查错方法包括如下步骤：

1.1)、对于输入文本S，采用基于深度学习的方法对文本进行分词与词性标注，得到S＝w₁,w₂,…,w_n，其中w_i为分词后得到的词，其对应词性为pos_i，i＝1,2,…,n；

采用基于深度学习的方法对输入文本进行分词和词性标注，具体步骤如下：

1.1.1)通过word2vec方法，将输入文本转换为可计算的向量；

1.1.2)将向量输入到LSTM-crf模型中，得到分词结果与每个词对应的词性；

1.2)、对分词后的结果使用unigram、bigram和trigram语言模型判断其中是否存在错误；

1.2.1)、判断w_i的词性pos_i，若其为人名或地名，则执行步骤1.2.2)；否则使用unigram模型判断w_i的频次P(w_i)，若P(w_i)＝阈值T₀，则执行步骤1.2.2)，若P(w_i)T₀，则标记w_i错误；

1.2.2)、设P(w_i-1,w_i)表示词w_i-1和w_i的共现次数，若pos_i为人名或地名，则使用bigram模型判断w_i-1和pos_i的共现次数P(w_i-1,pos_i)，若P(w_i-1,pos_i)＝阈值T₁，则执行步骤1.2.3)，若P(w_i-1,pos_i)T₁，则标记w_i错误；若pos_i不为人名和地名，则使用P(w_i-1,w_i)进行判断，若P(w_i-1,w_i)＝T₁，则执行步骤1.2.3)，若P(w_i-1,w_i)T₁，则标记w_i错误；

1.2.3)、设P(w_i-2,w_i-1,w_i)表示词w_i-2,w_i-1和w_i的共现次数，若pos_i为人名或地名，则使用trigram模型判断w_i-2、w_i-1和pos_i的共现次数P(w_i-2,w_i-1,pos_i)，若P(w_i-2,w_i-1,pos_i)＝阈值T₂，则认为w_i处不存在错误，若P(w_i-2,w_i-1,pos_i)T₂，则标记w_i错误；若pos_i不为人名和地名，则使用w_i-2,w_i-1和w_i的共现次数P(w_i-2,w_i-1,w_i)进行判断，若P(w_i-2,w_i-1,w_i)＝T₂，则认为w_i处不存在错误；若P(w_i-2,w_i-1,w_i)T₂，则标记w_i错误；

所述基于LSTM语言模型的查错方法具体为：

2.1)、利用字向量模型将每个字符向量化；

2.2)、通过双向LSTM模型进行特征自动抽取得到输出序列；具体方法为：首先，加载步骤S2.1中生成的字符向量，然后进入双向LSTM运算过程，前向LSTM的输出为h_ft，后向LSTM的输出为h_bt，二者进行向量拼接后，得到每个字符x_t的输出h_t＝[h_ft,h_bt]，所有字符的输出构成输出序列；其中前向LSTM的输出表征了历史上下文信息，而后向LSTM的输出则表征了未来的上下文信息；

2.3)、对于每个字符x_t的输出h_t，经过Softmax激活函数得到下一时刻字的概率，然后判断下一时刻字的概率与设定阈值的大小，当下一时刻字的概率大于设定的阈值，则该字符正确，否则标注该字符为错误；

S2、对于一个输入文本，经过步骤S1处理后分别得到了基于n-gram语言模型的查错结果和基于LSTM语言模型的查错结果，求取两个查错结果的交集作为最终的查错结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司，未经北京百分点科技集团股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910349756.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于教师监督的文本标注方法和设备
下一篇：一种分析文本数据潜在主题短语的方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种字词结合的文本自动校对方法有效

专利文献下载