[发明专利]纠错方法、装置、设备及可读存储介质在审
申请号: | 202010162323.6 | 申请日: | 2020-03-10 |
公开(公告)号: | CN111444705A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 曾增烽;刘东煜 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289;G06F40/242;G06F40/186;G06F40/151;G06F16/31;G06F16/35 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 方法 装置 设备 可读 存储 介质 | ||
本发明涉及人工智能技术领域,公开了一种纠错方法,包括以下步骤:获取待纠错的文本数据,对所述文本数据进行分词处理,得到待转换字符,将所述待转换字符转换为拼音序列,根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,将所述正确字符替换所述文本数据中对应的待转换字符。本发明还公开了一种纠错装置、设备及计算机可读存储介质,从而能够实现对于文本中错误字符的快速纠错,同时在后续使用中,只需将新文本加入至纠错词典中即可,更新成本低,便于维护。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种纠错方法、装置、设备及可读存储介质。
背景技术
随着信息时代的不断发展,我们每天都在接收信息,同时每天也在输出信息,不论是以合种输出方式,如语音输入,输入法输入等都不可避免地存在错误字符,在现有的纠错技术中有通过收集错误字符进行模型训练得到纠错模型的方法,以及制作映射词典进行错误字符和正确字符的一一对应,但是以上方法由于错别字千奇百怪难以对日常所有出现的错误字符进行收集,同时在后续的使用中,由于先前收集错误字符的不足,导致在后续的使用中更新成本太高,难以维护。
发明内容
本发明的主要目的在于提供一种纠错方法、装置、设备及可读存储介质,旨在解决如何有效进行字符纠错的技术问题。
为实现上述目的,本发明提供的一种纠错方法,所述纠错方法包括以下步骤:
获取待纠错的文本数据,所述文本数据包括用户输入的文本信息和预设的文本模板;
对所述文本数据进行分词处理,得到待转换字符,其中所述待转换字符为单个中文字、词组和产品名称中的一种;
将所述待转换字符转换为拼音序列;
根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,其中,所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典;
将所述正确字符替换所述文本数据中对应的待转换字符。
可选地,通过以下方式得到所述纠错词典:
收集所述聊天机器人中的聊天语料;
提取所述聊天语料中出现错误且被纠正的字符;
将所述字符转换为拼音特征,并建立所述拼音特征与所述字符的映射关系;
根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典。
可选地,所述根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典的步骤,包括:
将所有字符对应的拼音特征进行路径化,得到路径特征;
提取所述路径特征中拼音的相同部分和不同部分,其中所述相同为至少存在两个连续的音节相同;
基于相同部分创建一个主树干;
在所述主树干的基础上,创建子树干,其中所述子树干为基于不同部分创建形成,得到所述搜索树形状的纠错词典;
其中,所述主树干和子树干上均设有若干个节点,每个节点对应拼音特征中的一个字母或者一个音节。
可选地,所述对所述文本数据进行分词处理,得到待转换字符的步骤,包括:
设置初始长度为一的可变长度的滑动窗口;
基于所述滑动窗口对所述文本数据进行迭代扫描处理,得到待转换字符,其中所述待转换字符为所述滑动窗口所框选的字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010162323.6/2.html,转载请声明来源钻瓜专利网。