[发明专利]文本处理方法、装置、非易失性存储介质及处理器在审
申请号: | 202110456229.6 | 申请日: | 2021-04-26 |
公开(公告)号: | CN112949283A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 吴信东;盛绍静;周鹏;卜晨阳 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/151;G06F40/109 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 曾红芳 |
地址: | 230009 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 非易失性 存储 介质 处理器 | ||
本发明公开了一种文本处理方法、装置、非易失性存储介质及处理器。其中,该方法包括:获取待处理的目标文本,其中,目标文本为第一字体的文本;根据预设的转换对照库对目标文本进行拆分,得到多个第一字体的文本片段;分别对多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段;将多个第二字体的转换后文本片段进行拼接,得到目标文本对应的第二字体的转换后文本。本发明解决了将文本进行字体转换时转换结果不正确的技术问题。
技术领域
本发明涉及文字处理领域,具体而言,涉及一种文本处理方法、装置、非易失性存储介质及处理器。
背景技术
字体转换具有重大意义,通过字体转换可以便于文化交流,保存文化典籍。字体转换本质上是语言学问题,相关技术在这个过程中存在如下问题:(1)人工转换的话,工作量大且转换效率低:几十万乃至上百万字数的文本,完全由人工转换耗时耗力;(2)转换过程中容易产生字符集不兼容问题:当逐字转换的字符集互不兼容时,可能产生无数漏字;(3)转换过程中存在歧义性:一个第一字体的字在很多情况下可以和多个第二字体的字对应,直接转换容易出现错误,导致转换精度较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本处理方法、装置、非易失性存储介质及处理器,以至少解决将文本进行字体转换时转换结果不正确的技术问题。
根据本发明实施例的一个方面,提供了一种文本处理方法,包括:获取待处理的目标文本,其中,所述目标文本为第一字体的文本;根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段;分别对所述多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段;将所述多个第二字体的转换后文本片段进行拼接,得到所述目标文本对应的所述第二字体的转换后文本。
可选地,在所述转换对照库包括转换语句库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:将所述目标文本中的语句与所述转换语句库中包括的语句进行匹配;将与所述转换语句库中的语句匹配的所述目标文本中的语句拆分出来,得到语句片段,其中,所述多个第一字体的文本片段包括所述语句片段。
可选地,在所述转换对照库包括第一词库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:根据所述第一词库,对所述目标文本进行分词,得到第一词片段,其中,所述多个第一字体的文本片段包括所述第一词片段。
可选地,在所述转换对照库包括第二词库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:根据所述第二词库,对所述目标文本进行分词,得到第二词片段,其中,所述多个第一字体的文本片段包括所述第二词片段,所述第二词库与所述第一词库不同。
可选地,在所述转换对照库包括第一词库和第二词库的情况下,根据预设的转换对照库对所述目标文本进行拆分,得到多个第一字体的文本片段,包括:根据所述第一词库和所述第二词库,对所述目标文本进行分词,得到第三词片段,其中,所述第一字体的文本片段包括所述第三词片段。
可选地,在所述转换对照库还包括转换字库的情况下,分别对所述多个第一字体的文本片段进行转换,得到多个第二字体的转换后文本片段,包括:使用所述第一词库,将第一字体的第四词片段转换为第二字体的第五词片段,其中,所述第三词片段包括所述第四词片段,所述转换后文本片段包括所述第五词片段,所述第一词库中包括所述第四词片段、所述第五词片段,以及所述第四词片段与所述第五词片段的对应关系;使用所述第二词库,将第一字体的第六词片段转换为第二字体的第七词片段,其中,所述第三词片段包括所述第六词片段,所述转换后文本片段包括所述第七词片段,所述第二词库包括所述第六词片段、所述第七词片段,以及所述第六词片段与所述第七词片段的对应关系;使用所述转换字库,将第一字体的第八词片段逐字转换为第二字体的第九词片段,其中,所述第三词片段包括所述第八词片段,所述转换后文本片段包括所述第九词片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110456229.6/2.html,转载请声明来源钻瓜专利网。