[发明专利]纠错方法、装置、设备及可读存储介质在审
申请号: | 202010162323.6 | 申请日: | 2020-03-10 |
公开(公告)号: | CN111444705A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 曾增烽;刘东煜 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289;G06F40/242;G06F40/186;G06F40/151;G06F16/31;G06F16/35 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 纠错 方法 装置 设备 可读 存储 介质 | ||
1.一种纠错方法,其特征在于,所述纠错方法包括以下步骤:
获取待纠错的文本数据,所述文本数据包括用户输入的文本信息和预设的文本模板;
对所述文本数据进行分词处理,得到待转换字符,其中所述待转换字符为单个中文字、词组和产品名称中的一种;
将所述待转换字符转换为拼音序列;
根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符,其中,所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误的字符对应的正确字符的词典;
将所述正确字符替换所述文本数据中对应的待转换字符。
2.如权利要求1所述的纠错方法,其特征在于,所述纠错方法还包括:通过以下方式得到所述纠错词典:
收集所述聊天机器人中的聊天语料;
提取所述聊天语料中出现错误且被纠正的字符;
将所述字符转换为拼音特征,并建立所述拼音特征与所述字符的映射关系;
根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典。
3.如权利要求2所述的纠错方法,其特征在于,所述根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述纠错词典的步骤包括:
将所有字符对应的拼音特征进行路径化,得到路径特征;
提取所述路径特征中拼音的相同部分和不同部分,其中所述相同为至少存在两个连续的音节相同;
基于相同部分创建一个主树干;
在所述主树干的基础上,创建子树干,其中所述子树干为基于不同部分创建形成,得到所述搜索树形状的纠错词典;
其中,所述主树干和子树干上均设有若干个节点,每个节点对应拼音特征中的一个字母或者一个音节。
4.如权利要求1-3任一项所述的纠错方法,其特征在于,所述对所述文本数据进行分词处理,得到待转换字符的步骤包括:
设置初始长度为一的可变长度的滑动窗口;
基于所述滑动窗口对所述文本数据进行迭代扫描处理,得到待转换字符,其中所述待转换字符为所述滑动窗口所框选的字符。
5.如权利要求4所述的纠错方法,其特征在于,所述根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对应的正确字符的步骤包括:
利用所述多模匹配算法,查询所述纠错词典中包含所述拼音序列的所有字符;
计算每个字符的长度,并从所有字符中选择长度最大的字符,得到第一纠错字符;
根据所述第一纠错字符的长度调整所述滑动窗口,从所述文本数据中重新获取待转换字符;
比较所述第一纠错字符和重新获取的待转换字符的相似度;
若所述相似度大于预设值,则将所述第一接错字符选定为所述正确字符;
若所述相似度小于预设值,则从所有的字符中选择所述长度为最小的字符作为所述正确字符。
6.如权利要求5所述的纠错方法,其特征在于,若所述节点为拼音特征中的一个音节时,所述利用所述多模匹配算法,查询所述纠错词典中包含所述拼音序列的所有字符的步骤包括:
根据拼音中的音节划分规则,对所述拼音序列进行音节的划分处理,得到音节序列,所述划分处理为将所述拼音序列中按顺序将声母和韵母组成一个音节后,进行分割处理;
根据所述音节序列,依次与所述纠错词典中的主树干和子树干上的节点进行匹配,得到对应的拼音特征;
根据所述拼音特征,以及拼音特征与字符的对应关系,确定包含所述拼音序列的所有字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010162323.6/1.html,转载请声明来源钻瓜专利网。