[发明专利]一种文本校正方法及用户设备有效
申请号: | 201210332263.3 | 申请日: | 2012-09-10 |
公开(公告)号: | CN103678271A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 胡楠;杨锦春 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 校正 方法 用户 设备 | ||
技术领域
本发明涉及语言处理领域,尤其涉及一种文本校正方法及用户设备。
背景技术
随着数字化时代的到来,对错误的待校正文本进行修正的文本校正技术应用愈加广泛。在现有技术中,噪声信道理论中认为待校正文本的错误主要来源于手工输入过程中产生的输入错误,以及光学字符识别和语音识别中产生的输入错误。该噪声信道理论将这些待校正文本视为真实文本经过了一个混入噪声的信道后而产生。示例的,W为原字符串序列<W1,W2,...,Wn>,即完全正确的文本,经过噪声信道后产生噪声文本<O1,O2,...O3>,利用噪声信道理论进行文本校正的方法即为通过建立噪声信道概率模型,求某个字符串序列W’使得在观察到字符串序列O的情况下,W’的出现概率最大,字符串序列O为待校正文本,字符串序列W’为理想的校正文本,也可以称为理想字符串,但该理想的校正文本与正确文本W不一定完全相同。其中,字符串序列W’为使得P(W)P(O|W)概率最大的字符串,P(O|W)被称为信道概率或生成模型,概率P(W)为语言模型中字符串序列W出现的概率。
在利用噪声信道理论实现文本校正的方法中,需要根据语言模型获取使得P(W)P(O|W)概率最大的字符串W’,但是,当待校正文本的语言环境和主题背景等不同时,相同的词语或字符串可能表示不同的意思,因此需要不同的校正选择,但现有技术中的语言模型较为固定,对待校正文本只能采取固定的校正选择,因而容易出现校正错误,导致校正灵活性较差,正确性较低。
发明内容
本发明的实施例提供一种文本校正方法及用户设备,用于提高校正灵活性和正确性。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,提供一种文本校正方法,包括:
获取待校正文本在预设文本分类标准中的两个以上文本类型;
在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型;
将获取的两个以上待组合子语言模型组合成为混合语言模型;
根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本。
所述预设文本分类标准为:语言环境、主题背景、作者、写作风格和题材中的任意一项。
所述方法还包括:
获取所述预设文本分类标准;
根据所述预设文本分类标准中的文本类型建立两个以上的子语言模型。
所述将获取的两个以上待组合子语言模型组合成为混合语言模型包括:
获取所述待校正文本中各个文本类型的比重;
根据所述各个文本类型的比重,将所述获取的两个以上待组合子语言模型组合获得所述混合语言模型。
在根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本之前,所述方法还包括:
获取所述校正知识库中的错误检测模型;
通过所述错误检测模型确定所述待处理文本的错误位置,所述错误位置包括错误字符或错误字符串。
所述错误检测模型包括:字接续模型、词性接续模型、音近字典和形近字典中的任意一种或多种。
所述根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本包括:
由所述错误位置生成待校正字符串序列;
由所述错误位置生成待校正字符串序列;
对所述待校正字符串序列进行校正操作,得到至少一个校正字符串序列;
在所述待校正文本中获取所述错误位置前m个和后n个字符,与所述校正字符串序列组合得到至少一个筛选序列;
根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率最大的一个字符串序列作为校正建议文本,或
根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率较大的前几个字符串序列作为校正建议文本。
一方面,提供一种用户设备,包括:
获取单元,用于获取待校正文本在预设文本分类标准中的两个以上文本类型;
所述获取单元还用于在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型,并将获取的两个以上待组合子语言模型的信息发送至生成单元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210332263.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:互联网段落级话题识别系统
- 下一篇:一种金属材料断裂韧度试验结果自动处理系统