[发明专利]一种文本纠错的方法和装置在审

申请号：	202010837296.8	申请日：	2020-08-19
公开（公告）号：	CN112199945A	公开（公告）日：	2021-01-08
发明（设计）人：	司马华鹏;汤毅平;李慧水;华冰涛;汪成	申请（专利权）人：	宿迁硅基智能科技有限公司
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/242;G06F40/253;G06F40/289;G06K9/62;G06N3/08
代理公司：	江苏舜点律师事务所 32319	代理人：	孙丹
地址：	223800 江苏省宿***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本纠错方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本纠错的方法和装置，涉及智能外呼的技术领域，旨在解决现有文本纠错方法对特定应用场景的ASR识别结果检错和纠错准确率不高的问题。其技术方案要点是将待纠错文本预处理后生成待检字集合，利用预训练的语言模型预测所述待检字集合中每个字的概率分布，根据每个字的概率分布确定错字位置并生成候选字集合，将所述候选字集合中的每个字替换错字位置形成生成候选句集合，对候选句集合中的各元素进行评分，保留评分最优的所述候选句集合中的元素所对应候选字，用该候选字替换相应错字位置并输出句子。本发明达到了提高文本纠错率的效果。

技术领域

本发明涉及智能外呼的技术领域，尤其是涉及一种文本纠错的方法和装置。

背景技术

目前，在外呼机器人领域，一般通过ASR(Automatic Speech Recognition，自动语音识别)技术将通信电话语音信号转成文本格式文件，然后对该文本进行分析，获取用户意图然后做出相应处理。由于电话语音信号较差，ASR 转换成文本存在一定的错误率，导致机器人理解用户意图出现偏差。

近场情况下的SNR(Signal to Noise Ratio,人机对话信噪比)较高，信号清晰，ASR算法能够生成较为准确的文本。但是远场情况下由于噪声较大，SNR大幅降低，导致ASR算法处理难度增加且准确率大大降低。此外，地区差异引起的口音差异、麦克风的数量和灵敏度差异都会对语音识别转换所生成文本内容的准确率产生较大影响。

现有的文本纠错方法主要有：基于中文分词、n-gram语言模型、语言学规则和混淆词库的方法，基于统计机器翻译和神经机器翻译的方法，基于散列串和依存句法的方法，基于深度学习的方法等。这些方法的准确率和效果各有不同，但多数是针对输入错误和人为错误，应用在通用领域，却较少有针对ASR识别的文本错误和针对特定应用领域的方法研究。现有的文本纠错方法对细分领域的ASR识别出现的文本纠错效果有待提高。

发明内容

本发明的目的是提供一种文本纠错的方法和装置，其具有提高文本纠错率的效果。

本发明的上述发明目的一是通过以下技术方案得以实现的：

一种文本纠错的方法，包括：

将待纠错文本预处理后生成待检字集合，利用预训练的语言模型预测所述待检字集合中每个字的概率分布，根据每个字的概率分布确定错字位置并生成候选字集合，将所述候选字集合中的每个字替换错字位置形成生成候选句集合，对候选句集合中的各元素进行评分，保留评分最优的所述候选句集合中的元素所对应候选字，用该候选字替换相应错字位置并输出句子。

所述语言模型的训练步骤包括：随机将待训练句子中的部分汉字替换成另一个同音字和/或近音字；逐批次将替换后的待训练句子输入语言模型中进行前向传播计算，输出替换后文字的预测概率分布；用预测概率分布和真实字符计算负对数似然损失函数；用反向传播算法迭代优化直到模型收敛。

所述候选字集合包括同音字或近音字以及排除不符合语言常识的候选字。

所述待检字集合的生成步骤包括：将待纠错文本基于通用词典和领域词典进行分词；

基于HMM分词；

把出现在混淆词中的词替换为相应的正确词；

保留分出的单字词和新词，组成待检字集合。

本发明的上述发明目的二是通过以下技术方案得以实现的：

一种文本纠错的装置，包括：

文本预处理模块，用于将待纠错文本进行分词；

检错模块，用于预测待检字集合中每个字的概率分布，根据每个字的概率分布确定错字位置；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载