[发明专利]文本纠错的方法和装置在审
申请号: | 201810146360.0 | 申请日: | 2018-02-12 |
公开(公告)号: | CN110162767A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 杨俊 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;杨晓伟 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 文本 纠错文本 方法和装置 序列模型 注意力 计算机技术领域 标准文本 复杂度 准确率 输出 | ||
本发明公开了文本纠错的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对待纠错文本进行纠错,输出待纠错文本对应的标准文本,其中纠错模型是经过训练的基于注意力的序列到序列模型。该实施方式利用训练的基于注意力的序列到序列模型对文本进行纠错,减少了计算的复杂度,提高了文本纠错的准确率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本纠错的方法和装置。
背景技术
近年来,随着信息技术的不断创新和进步,智能客服机器人凭借其不需要培训、可以长时间连续工作和不需要人力成本等优势,在客服行业逐渐代替了人工客服。智能客服机器人的核心技术是对用户的输入进行预处理,然后对预处理结果进行意图识别分类,进而根据分类的结果进行应答。预处理过程中的文本纠错环节非常重要。如果不对用户的输入进行纠错,会影响意图识别准确率,最终会导致智能客服机器人应答错误。
现有技术是基于语言模型进行文本纠错的,即基于词与词之间的出现概率计算句子的概率。假设句子s是由k个词组成的,即s=W1,W2,…,Wk,(其中W1,W2,…,Wk为构成句子s的词),则句子s的概率p(s)可以表示为:
p(s)=p(W1,W2,…,Wk)=p(W1)p(W2|W1)…p(Wk|W1,W2,…,Wk-1)
其中,Wk表示当前词,W1,W2,…,Wk-1表示当前词之前的词。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:一、现有技术基于语言模型进行文本纠错的方法中,语言模型只考虑当前词之前的词语,没有考虑当前词后面的词语;二、现有技术文本纠错的方法采用的语言模型存在模型复杂计算量大的问题,以N-Gram模型(大词汇连续语音识别中常用的一种语言模型)为例,假设词表的大小为100000,那么N-Gram模型的参数数量就达到100000N,N越大,模型越准确,但是模型也越复杂计算量越大。
发明内容
有鉴于此,本发明实施例提供一种文本纠错的方法和装置,能够减少计算的复杂度,提高文本纠错的准确率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种文本纠错的方法。
本发明实施例的一种文本纠错的方法包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本,所述纠错模型是经过训练的基于注意力的序列到序列模型。
可选地,在根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本之前,所述方法还包括:获取第一样本集和第二样本集,所述第一样本集包含至少一个标准文本,所述第二样本集包含与所述标准样本对应的错误文本;利用所述第一样本集和所述第二样本集构建训练样本集;对所述训练样本集进行训练,以得到所述纠错模型,所述纠错模型输入的是所述训练样本集的错误文本,输出的是所述训练样本集的标准文本。
可选地,获取第一样本集和第二样本集包括:获取第一样本集;对所述第一样本集中的标准文本进行分词处理得到多个分词,并按照预设的规则生成每个分词对应的替换集;从所述分词对应的替换集中选出预设个数的替换词;根据所述替换词对所述标准文本进行随机替换生成错误文本,然后利用所述错误文本构成所述第二样本集。
可选地,所述预设的规则包括以下各项中的至少一项:相同音规则、模糊音规则和形似词规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810146360.0/2.html,转载请声明来源钻瓜专利网。