[发明专利]纠错方法、装置、设备及可读存储介质在审

申请号：	202010162323.6	申请日：	2020-03-10
公开（公告）号：	CN111444705A	公开（公告）日：	2020-07-24
发明（设计）人：	曾增烽;刘东煜	申请（专利权）人：	中国平安人寿保险股份有限公司
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/289;G06F40/242;G06F40/186;G06F40/151;G06F16/31;G06F16/35
代理公司：	北京市京大律师事务所 11321	代理人：	刘挽澜
地址：	518033 广东省深圳市福田区益田路5033号***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	纠错方法装置设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，公开了一种纠错方法，包括以下步骤：获取待纠错的文本数据，对所述文本数据进行分词处理，得到待转换字符，将所述待转换字符转换为拼音序列，根据所述拼音序列，采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符，将所述正确字符替换所述文本数据中对应的待转换字符。本发明还公开了一种纠错装置、设备及计算机可读存储介质，从而能够实现对于文本中错误字符的快速纠错，同时在后续使用中，只需将新文本加入至纠错词典中即可，更新成本低，便于维护。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种纠错方法、装置、设备及可读存储介质。

背景技术

随着信息时代的不断发展，我们每天都在接收信息，同时每天也在输出信息，不论是以合种输出方式，如语音输入，输入法输入等都不可避免地存在错误字符，在现有的纠错技术中有通过收集错误字符进行模型训练得到纠错模型的方法，以及制作映射词典进行错误字符和正确字符的一一对应，但是以上方法由于错别字千奇百怪难以对日常所有出现的错误字符进行收集，同时在后续的使用中，由于先前收集错误字符的不足，导致在后续的使用中更新成本太高，难以维护。

发明内容

本发明的主要目的在于提供一种纠错方法、装置、设备及可读存储介质，旨在解决如何有效进行字符纠错的技术问题。

为实现上述目的，本发明提供的一种纠错方法，所述纠错方法包括以下步骤：

获取待纠错的文本数据，所述文本数据包括用户输入的文本信息和预设的文本模板；

对所述文本数据进行分词处理，得到待转换字符，其中所述待转换字符为单个中文字、词组和产品名称中的一种；

将所述待转换字符转换为拼音序列；

根据所述拼音序列，采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符，其中，所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典；

将所述正确字符替换所述文本数据中对应的待转换字符。

可选地，通过以下方式得到所述纠错词典：

收集所述聊天机器人中的聊天语料；

提取所述聊天语料中出现错误且被纠正的字符；

将所述字符转换为拼音特征，并建立所述拼音特征与所述字符的映射关系；