[发明专利]一种语句纠错装置有效
申请号: | 201910008704.6 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109858023B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 杨雨涵;孔洋洋;朱劲松 | 申请(专利权)人: | 北京车慧科技有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/216 |
代理公司: | 北京市维诗律师事务所 11393 | 代理人: | 李翔;杨安进 |
地址: | 100044 北京市海淀区西直门外大街16*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语句 纠错 装置 | ||
1.一种语句纠错装置,其特征在于,该装置包括:
检测模块,用于利用语言模型检测语句中的错误词;
生成模块,用于针对所述错误词生成词的候选词集;
替换模块,用于利用所述词的候选词集中的词替换所述语句中的所述错误词;
纠错模块,用于计算替换所述错误词后的语句的困惑度,选择困惑度最优的语句作为纠错后的语句;
所述纠错模块,还用于根据下式计算替换所述错误词后的语句的困惑度:
PP(S)=2H(S);
其中,PP(S)为语句S的困惑度,l为句子S的长度,P(S)为语句S的概率,
P(S)=P(w1)P(w2|w1)P(w3|w1w2)P(w4|w1w2w3)…P(wn|w1w2…wn-1);
S=w1w2w3…wn,其中w1至wn是字或词;
检测模块,还用于检测词是否为真词,其中真词为中文词库中存在的词;
检测模块,还用于在检测到词不是真词的情况下,根据词的自由度和凝固度确定该词是否为新词;
纠错模块,还用于在确定该词为新词的情况下,不再对该词纠错;
其中,自由度fr=mfn(H(U)1,H(U)2,…,H(U)n),其中,
凝固度
Pi是文本中的字或词i的概率,Pi,j是文本中的字或词i与文本中的字或词j的概率,i、j、q、n均为正整数;
检测模块,还用于计算所述语句中每个字能够结合上下文组成的词语分数;对每个字所组成的词语的分数取平均值;如果语句中字的得分大于阈值且字的平均得分小于得分的均值,则该词为错误词;
其中,针对语句S=w1w2w3…wn,每个字wf的得分为scorewf;
语句中所有字的得分的平均值:
语句中所有字的得分的标准差:
当且时,字wi加入待纠错集,其中r为阈值。
2.根据权利要求1所述的装置,其特征在于,该装置还包括预纠错模块,用于利用常见错误集对所述语句进行预纠错。
3.根据权利要求1所述的装置,其特征在于,所述语言模型包括分词后的文本训练Bigram语言模型、分字后的文本训练Bigram语言模型、和/或分字后的文本训练Trigram语言模型。
4.根据权利要求1所述的装置,其特征在于,生成模块,还用于替换所述错误词的每个字生成所述词的候选词集;根据与所述错误词的编辑距离生成所述词的候选词集;和/或利用搜索引擎生成所述词的选词集。
5.根据权利要求2所述的装置,其特征在于,该装置还包括:
挖掘模块,用于对样本文本进行数据挖掘,得到词;
聚类模块,用于将同音词、近同音词、和/或形近词进行聚类;
认定模块,用于在聚类后的词不存在于预先构造的中文词库中的情况下,认定该词为错误词;
构造模块,用于根据错误词出现的概率,构造常见错误集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京车慧科技有限公司,未经北京车慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910008704.6/1.html,转载请声明来源钻瓜专利网。