[发明专利]文本处理方法、装置、电子设备及存储介质在审
申请号: | 202310002480.4 | 申请日: | 2023-01-03 |
公开(公告)号: | CN116127984A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 白安琪;蒋宁;夏粉;吴海英;肖冰 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F16/35;G06N3/084;G06N3/0455 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 徐晨影 |
地址: | 401121 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种文本处理方法、装置、电子设备及存储介质,用于实现对包含非汉字信息的文本的语义的准确解析。所述方法包括:获取待处理的目标文本包含的汉字信息和非汉字信息,所述非汉字信息包括拼音和图形中的至少一种;基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本;通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息;基于所述汉字信息和所述非汉字信息对应的预测汉字信息,确定用于表示所述目标文本的语义的目标汉字序列。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
文本是人与人之间以及人机之间交流的重要工具之一,尤其对于一些有口语表达障碍的用户与外界之间的交流。人类书写的文本并不是从一开始就是规范的,在个体正确且完全使用汉字表达之前,因认识的汉字数量有限,而想要表达的语义无限,必然会存在使用汉字以外的符号辅助表达的过渡阶段,也即采用已知表示未知。例如,一些认识的汉字数量有限的用户,常常喜欢使用拼音或者图形等非汉字信息来替代所想表达的汉字,这就需要电子设备能够准确解析用户创作的文本的语义,以便实现用户与电子设备之间的人机交互或者用户与其他用户之间的交流。
但是,相关技术中的文本解析方案仅适用于由汉字构成的文本,若文本中还包含了拼音或图形等非汉字信息,则无法准确解析文本的语义,进而导致用户与外界之间交流困难。
发明内容
本申请实施例的目的提供一种文本处理方法、装置及电子设备,用于实现对包含非汉字信息的文本的语义的准确解析。
为了实现上述目的,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种文本处理方法,包括:
获取待处理的目标文本包含的汉字信息和非汉字信息,所述非汉字信息包括拼音和图形中的至少一种;
基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本;
通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息;
基于所述汉字信息和所述非汉字信息对应的预测汉字信息,确定用于表示所述目标文本的语义的目标汉字序列。
第二方面,本申请实施例提供一种文本处理装置,包括:
获取单元,用于获取待处理的目标文本包含的汉字信息和非汉字信息,所述非汉字信息包括拼音和图形中的至少一种;
掩码单元,用于基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本;
预测单元,用于通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息;
确定单元,用于基于所述汉字信息和所述非汉字信息对应的预测汉字信息,确定用于表示所述目标文本的语义的汉字序列。
第三方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310002480.4/2.html,转载请声明来源钻瓜专利网。