[发明专利]文本检测方法及装置在审
申请号: | 202011053447.7 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112257436A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 罗博明 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F40/242;G06F40/30;G06F40/51;G06F40/58;G06K9/62 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检测 方法 装置 | ||
本申请提供一种文本检测方法及装置,能够解决在对译文和原文进行校对时,效率低、精确度差的问题,适用于终端设备或网络设备。该方法包括:根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,生成词对齐结果。其中,词对齐结果包括词向量对集合,词向量对集合包括一一对应的原文词向量集合中的元素、译文词向量集合中的元素组成的词向量对。确定词向量对集合中属于译文词向量集合的每个元素对应的译文词语,以及译文词语对应的第一原文词语。根据译文词语对应的原文文本中的第二原文词语与第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果。
技术领域
本申请涉及人工智能领域,尤其涉及一种文本检测方法及装置。
背景技术
随着全球化的发展和进步,不同国家、不同民族之间的交流也越来越频繁,而通常地不同国家、不同民族之间存在语言差异,因此,需要对不同语言的文本进行翻译,以便用户能够清楚未知语言的文本记载的内容。例如,用户通常利用翻译软件或者人工翻译的方式对不同语言的文本进行翻译。在翻译完毕后,译文文本相对于原文文本可能会存在翻译误差,因此,需要对译文文本进行校对。
目前,可以采用语言专家将译文文本与原文文本进行逐一的校对的方式,检测译文文本与原文文本是否存在翻译误差。可以理解地,通过上述人工校对的方式,需要消耗的时间长,效率低,并且校对结果的精确度,主要决定于语言专家的专业性、工作专注度及细致程度,可靠性低。
发明内容
本申请实施例提供一种文本检测方法及装置,能够解决在对译文和原文进行校对时,效率低、精确度差的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供一种文本检测方法,应用于终端设备或网络设备。该文本检测方法包括:根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,生成词对齐结果。其中,词对齐结果包括词向量对集合,词向量对集合包括一一对应的原文词向量集合中的元素、译文词向量集合中的元素组成的词向量对。确定词向量对集合中属于译文词向量集合的每个元素对应的译文词语,以及译文词语对应的第一原文词语。根据译文词语对应的原文文本中的第二原文词语与第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果。
基于第一方面所述的文本检测方法,通过将原文文本中的原文词语与译文文本中的译文词语对齐,然后将译文词语翻译回原文词语,找到翻译回的原文词语关联的近义词集合,并根据原文文本中的原文词语与近义词集合的归属关系,确定文本检测结果,无需语言专家逐一地比对,提高了检测的效率,同时检测结果也不依赖于语言专家的专注度与细致程度,提高了检测的精确度。
一种可能的设计方案中,上述根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,确定词对齐结果,可以包括:将原文词向量集合中的每个元素与译文词向量集合中的每个元素相似度比对。根据相似度高于第一匹配阈值的原文词向量集合中的元素、译文词向量集合的中的元素,构建待对齐词向量对集合。根据词向量对齐算法,从待对齐词向量对集合中提取总相似度最高的待对齐词向量子集作为词向量对集合。由于提取的是总相似度最高的待对齐词向量子集作可以为词向量对集合,因此,可以精准地完成词向量对齐。
进一步地,词向量对齐算法可以为匈牙利算法或线性规划算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011053447.7/2.html,转载请声明来源钻瓜专利网。