[发明专利]基于汉字音形相似性的拼写纠错方法、装置以及电子设备有效
申请号: | 202110460497.5 | 申请日: | 2021-04-27 |
公开(公告)号: | CN112883718B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 林金曙;娄东方;王炯亮;陈哲;陈春旭 | 申请(专利权)人: | 恒生电子股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/242;G06K9/62 |
代理公司: | 杭州华鼎知识产权代理事务所(普通合伙) 33217 | 代理人: | 魏亮 |
地址: | 310051 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 汉字 形相 拼写 纠错 方法 装置 以及 电子设备 | ||
本申请实施例提出了基于汉字音形相似性的拼写纠错方法、装置以及电子设备,包括根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。由于汉字转换成本计算只发生在音形编辑初始过程中,具体过程中不涉及层级间的计算,只需从预先加载的汉字与词典的映射字典取出即可;能够有效降低BK树中文纠错算法从树顶层往下不断对比带来的庞大计算量,提升纠错效率。
技术领域
本申请涉及文本纠错领域,尤其涉及基于汉字音形相似性的拼写纠错方法、装置以及电子设备。
背景技术
中文光学汉字识别(OCR)和自动语音识别(ASR)等场景中,因汉字音形相似可能引起识别错误。一般通过添加ASR、OCR等模型输出的后处理模块(中文拼写纠错)可解决大量错误。
为了减少搜索遍历次数引入了BK(Burkhard-Keller)树结构。BK树基于正确词库之间的汉字串汉字转换成本构建树形结构,后续基于该树形结构快速搜索相近(汉字转换成本)汉字串。相对于遍历词库,BK树搜索可大大提升性能。但它还存在如下不足:
(1)BK树结构主要支持天然分词场景(分词一般搜索场景下才易得,其他场景下几乎无法获取正确分词结果),使用范围有限;
(2)BK树纠错需要实时计算两汉字串之间的汉字转换成本,在树深度较深的情况下,性能较差;
(3)随着领域词典变大,BK树变深,将导致性能急剧下降;
(4)BK树检索范围随着错误汉字数量阈值变大急剧变大,性能也将急剧下降。BK树相似检索虽然是一种合理的中文拼写错误干预方法,但它存在性能不足和使用范围的局限性问题。
发明内容
本申请实施例提出了基于汉字音形相似性的拼写纠错方法,由于本身不涉及层级间的节点计算过程,从而降低数据计算压力。
具体的,根据本公开实施例的第一方面,本申请实施例提出的基于汉字音形相似性的拼写纠错方法包括:
根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。
可选的,所述基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合,包括:
定义将样本汉字集合中的汉字转换为汉字的最小编辑次数作为汉字转换成本;
结合相似度超参数构建如公式一所示的相似度计算公式,
公式一,
式中,为相似度超参数,表示两个汉字和之间的汉字转换成本,表示计算相似度的运算符;
将得到的对应汉字相似度结果按相似度由高到低的顺序进行排序,选取排序后靠前的汉字构建对应汉字的映射关系;
将得到的映射关系构建对应汉字的相似汉字集合。
可选的,所述方法还包括在计算两个汉字之间对应汉字音形信息的相似度之前,还包括:
对样本汉字集合中的汉字字形信息进行筛选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒生电子股份有限公司,未经恒生电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110460497.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车载终端共享数据方法及装置
- 下一篇:电解液及锂离子电池