[发明专利]文本的标准化处理方法、装置、电子设备及计算机介质有效
申请号: | 202010773036.9 | 申请日: | 2020-08-04 |
公开(公告)号: | CN111881679B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 柯昆 | 申请(专利权)人: | 医渡云(北京)技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F40/232;G06F16/35 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标准化 处理 方法 装置 电子设备 计算机 介质 | ||
1.一种文本的标准化处理方法,其特征在于,包括:
获取待处理的原始文本,并将所述原始文本进行拆分,得到所述原始文本中的各个待识别文本成分;
获取标准文本成分集合,并通过所述标准文本成分集合对所述待识别文本成分进行识别,确定所述待识别文本成分中的未识别文本成分,其中,所述未识别文本成分包括错误文本成分和缩写文本成分;
将所述错误文本成分进行拆分得到所述错误文本成分的子文本成分,并从所述标准文本成分集合中获取包含有所述子文本成分的标准文本成分,作为所述子文本成分的关联文本成分;
根据所述错误文本成分的所有子文本成分所对应的关联文本成分,得到所述错误文本成分的召回文本成分;
根据所述召回文本成分与所述子文本成分之间的关联次数,所述召回文本成分在所述标准文本成分集合中的词频,以及所述召回文本成分与所述错误文本成分的相似度,从所述召回文本成分中确定所述错误文本成分对应的候选文本成分;
根据所述错误文本成分在所述原始文本中的位置,对所述候选文本成分进行验证,并从所述候选文本成分中确定所述错误文本成分对应的正确文本成分;
根据预先生成的缩写文本对照表对所述缩写文本成分进行成分匹配,并根据匹配结果得到与所述缩写文本成分对应的完整文本成分;
根据所述正确文本成分对所述错误文本成分进行修正,以及根据所述完整文本成分对所述缩写文本成分进行修正,得到所述原始文本的标准化文本。
2.根据权利要求1所述的文本的标准化处理方法,其特征在于,所述将所述错误文本成分进行拆分得到所述错误文本成分的子文本成分,包括:
将所述错误文本成分分别按照不同的文本粒度进行拆分,得到各个不同的文本粒度对应的子文本成分。
3.根据权利要求1所述的文本的标准化处理方法,其特征在于,所述根据所述召回文本成分与所述子文本成分之间的关联次数,所述召回文本成分在所述标准文本成分集合中的词频,以及所述召回文本成分与所述错误文本成分的相似度,从所述召回文本成分中确定所述错误文本成分对应的候选文本成分,包括:
获取各个所述召回文本成分与所述子文本成分之间的关联次数,将所述关联次数小于阈值的召回文本成分进行过滤;
将所述召回文本成分中的第一子文本成分与所述错误文本成分中的第一子文本成分进行匹配,并将匹配失败的召回文本成分进行过滤;
根据所述召回文本成分在所述标准文本成分集合中的词频,以及所述召回文本成分与所述错误文本成分的相似度,对所述召回文本成分进行相似度评分,并将所述相似度评分小于分数阈值的召回文本成分进行过滤;
根据过滤后的所述召回文本成分得到所述错误文本成分对应的候选文本成分。
4.根据权利要求1所述的文本的标准化处理方法,其特征在于,所述缩写文本对照表的生成方法包括:
获取所述原始文本中的未识别文本成分,并从所述标准文本成分集合中获取包含有所述未识别文本成分的标准文本成分,作为所述未识别文本成分的待验证文本成分;
对所述待验证文本成分进行缩写验证,将通过所述缩写验证的待验证文本成分确定为与所述缩写文本成分对应的完整文本成分;
将所述缩写文本成分以及与所述缩写文本成分对应的完整文本成分放入所述缩写文本对照表中。
5.根据权利要求4所述的文本的标准化处理方法,其特征在于,所述将所述缩写文本成分以及与所述缩写文本成分对应的完整文本成分放入所述缩写文本对照表中,包括:
获取所述缩写文本成分的词频,并按照所述缩写文本成分的词频从大到小的顺序对所述缩写文本成分进行排序;
根据排序结果将所述缩写文本成分以及与所述缩写文本成分对应的完整文本成分放入缩写文本对照表中。
6.根据权利要求1所述的文本的标准化处理方法,其特征在于,所述通过所述标准文本成分集合对所述待识别文本成分进行识别,确定所述待识别文本成分中的未识别文本成分,包括:
通过所述标准文本成分集合判断所述待识别文本成分是否属于所述标准文本成分集合中的标准文本成分;
若所述待识别文本成分不属于所述标准文本成分,则将所述待识别文本成分确定为未识别文本成分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医渡云(北京)技术有限公司,未经医渡云(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010773036.9/1.html,转载请声明来源钻瓜专利网。