[发明专利]一种文本校正方法及用户设备有效

专利信息
申请号: 201210332263.3 申请日: 2012-09-10
公开(公告)号: CN103678271A 公开(公告)日: 2014-03-26
发明(设计)人: 胡楠;杨锦春 申请(专利权)人: 华为技术有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京中博世达专利商标代理有限公司 11274 代理人: 申健
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 校正 方法 用户 设备
【说明书】:

技术领域

发明涉及语言处理领域,尤其涉及一种文本校正方法及用户设备。

背景技术

随着数字化时代的到来,对错误的待校正文本进行修正的文本校正技术应用愈加广泛。在现有技术中,噪声信道理论中认为待校正文本的错误主要来源于手工输入过程中产生的输入错误,以及光学字符识别和语音识别中产生的输入错误。该噪声信道理论将这些待校正文本视为真实文本经过了一个混入噪声的信道后而产生。示例的,W为原字符串序列<W1,W2,...,Wn>,即完全正确的文本,经过噪声信道后产生噪声文本<O1,O2,...O3>,利用噪声信道理论进行文本校正的方法即为通过建立噪声信道概率模型,求某个字符串序列W’使得在观察到字符串序列O的情况下,W’的出现概率最大,字符串序列O为待校正文本,字符串序列W’为理想的校正文本,也可以称为理想字符串,但该理想的校正文本与正确文本W不一定完全相同。其中,字符串序列W’为使得P(W)P(O|W)概率最大的字符串,P(O|W)被称为信道概率或生成模型,概率P(W)为语言模型中字符串序列W出现的概率。

在利用噪声信道理论实现文本校正的方法中,需要根据语言模型获取使得P(W)P(O|W)概率最大的字符串W’,但是,当待校正文本的语言环境和主题背景等不同时,相同的词语或字符串可能表示不同的意思,因此需要不同的校正选择,但现有技术中的语言模型较为固定,对待校正文本只能采取固定的校正选择,因而容易出现校正错误,导致校正灵活性较差,正确性较低。

发明内容

本发明的实施例提供一种文本校正方法及用户设备,用于提高校正灵活性和正确性。

为达到上述目的,本发明的实施例采用如下技术方案:

一方面,提供一种文本校正方法,包括:

获取待校正文本在预设文本分类标准中的两个以上文本类型;

在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型;

将获取的两个以上待组合子语言模型组合成为混合语言模型;

根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本。

所述预设文本分类标准为:语言环境、主题背景、作者、写作风格和题材中的任意一项。

所述方法还包括:

获取所述预设文本分类标准;

根据所述预设文本分类标准中的文本类型建立两个以上的子语言模型。

所述将获取的两个以上待组合子语言模型组合成为混合语言模型包括:

获取所述待校正文本中各个文本类型的比重;

根据所述各个文本类型的比重,将所述获取的两个以上待组合子语言模型组合获得所述混合语言模型。

在根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本之前,所述方法还包括:

获取所述校正知识库中的错误检测模型;

通过所述错误检测模型确定所述待处理文本的错误位置,所述错误位置包括错误字符或错误字符串。

所述错误检测模型包括:字接续模型、词性接续模型、音近字典和形近字典中的任意一种或多种。

所述根据所述混合语言模型对所述待校正文本进行校正得到校正建议文本包括:

由所述错误位置生成待校正字符串序列;

由所述错误位置生成待校正字符串序列;

对所述待校正字符串序列进行校正操作,得到至少一个校正字符串序列;

在所述待校正文本中获取所述错误位置前m个和后n个字符,与所述校正字符串序列组合得到至少一个筛选序列;

根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率最大的一个字符串序列作为校正建议文本,或

根据所述混合语言模型,通过噪声信道概率模型在所述至少一个筛选序列中获取理想字符串出现概率较大的前几个字符串序列作为校正建议文本。

一方面,提供一种用户设备,包括:

获取单元,用于获取待校正文本在预设文本分类标准中的两个以上文本类型;

所述获取单元还用于在校正知识库中获取与所述待校正文本的每一个文本类型对应的待组合子语言模型,并将获取的两个以上待组合子语言模型的信息发送至生成单元;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210332263.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top