[发明专利]文本纠错方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202011435068.4 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112528633A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 洪振厚;王健宗;瞿晓阳 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/205;G06F40/166;G06F40/126 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本发明涉及语音语义技术,揭露了一种文本纠错方法,包括:对获取的原始文本进行字符拆分,得到字符集;利用表征算法计算字符集中每个字符的字符表征;根据字符集与字符表征构建字符集中每个字符的字符向量;获取标准字符向量集,分别计算字符集中每个字符的字符向量与标准字符向量集中各标准字符向量的相似度;根据相似度从标准字符向量集中筛选出;计算相似向量的先验依赖性概率,根据先验依赖性概率选择相似向量对原始文本进行文本纠错,得到纠错文本。此外,本发明还涉及区块链技术,所述标准字符向量集可存储于区块链的节点。本发明还提出一种文本纠错装置、设备以及介质。本发明可以解决文本纠错的精确度不高的问题。
技术领域
本发明涉及语音语义技术领域,尤其涉及一种文本纠错方法、装置、电子设备及计算机可读存储介质。
背景技术
日常生活中常常使用到一些文本,例如,企业或个人签订的合同文本,订单文本,随着日常生活中文本使用频率的增加,文本中内容的正确性成为了人们关注的重点,由此产生了对识文本内容进行纠错处理的方法。
目前针对文本内容进行纠错的方法多为基于规则式的通用纠错库的文本纠错方法,该方法按照既定的替换规则利用预先给定的标准文本或词语等对待纠错文本中的字符进行替换以实现文本纠错。但该方法在进行字符替换时未参考上下文语义,仅按照既定规则的替换会导致文本纠错的精确度不高。
发明内容
本发明提供一种文本纠错方法、装置及计算机可读存储介质,其主要目的在于解决文本纠错的精确度不高的问题。
为实现上述目的,本发明提供的一种文本纠错方法,包括:
获取原始文本,对所述原始文本进行字符拆分,得到字符集;
利用表征算法计算所述字符集中每个字符的字符表征;
根据所述字符集与所述字符表征构建所述字符集中每个字符的字符向量;
获取标准字符向量集,分别计算所述字符集中每个字符的字符向量与所述标准字符向量集中各标准字符向量的相似度;
根据所述相似度从所述标准字符向量集中筛选出所述字符集中每个字符的字符向量的相似向量;
计算所述相似向量的先验依赖性概率,根据所述先验依赖性概率选择相似向量对所述原始文本进行文本纠错,得到纠错文本。
可选地,所述对所述原始文本进行字符拆分,得到字符集,包括:
遍历所述原始文本并在所述原始文本中每个字符间插入分隔符;
按照所述分隔符将所述原始文本进行拆分,得到字符集。
可选地,所述根据所述字符集与所述字符表征构建所述字符集中每个字符的字符向量,包括:
将所述字符集中每个字符进行编码转化,得到字符编码;
将所述字符编码与所述字符表征进行算术运算,得到字符向量。
可选地,所述分别计算所述字符集中每个字符的字符向量与所述标准字符向量集中各标准字符向量的相似度,包括:
利用如下相似度算法计算所述字符集中每个字符的字符向量与所述标准字符向量集中各标准字符向量的相似度:
其中,S(Xn,Ym)为所述距离值,Xn为所述字符集中第n个字符的字符向量,Ym为所述标准字符向量集中第m个标准字符向量。
可选地,所述根据所述相似度从所述标准字符向量集中筛选出所述字符集中每个字符的字符向量的相似向量,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011435068.4/2.html,转载请声明来源钻瓜专利网。