[发明专利]文本处理方法及装置在审
申请号: | 202210753298.8 | 申请日: | 2022-06-29 |
公开(公告)号: | CN115114907A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 阎覃;孙子钧;张天宇;赵薇;柳景明 | 申请(专利权)人: | 北京飞象星球科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/289;G06F40/216;G06F40/242 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李琪 |
地址: | 100102 北京市朝阳区广顺南大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 | ||
本说明书提供文本处理方法及装置,其中所述文本处理方法包括:获取待识别沟通文本,并确定所述待识别沟通文本中的目标沟通对象;在所述待识别沟通文本中获取所述目标沟通对象对应的至少两个待识别沟通子文本;拼接所述至少两个待识别沟通子文本,获得至少一个目标沟通文本;将每个目标沟通文本输入至主题识别模型进行处理,获得每个目标沟通文本对应的文本主题。通过确定待识别沟通文本中目标沟通对象对应的待识别沟通子文本,并将对待识别沟通子文本进行拼接得到的,且主题更为明确的目标沟通文本输入至主题识别模型中,从而提升文本主题的识别准确率。
技术领域
本说明书涉及计算机技术领域,特别涉及一种文本处理方法。本说明书同时涉及一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
现有技术中,为了便于可以对新增文本的主题进行识别,可以基于有监督的主题识别算法识别文本中的主题。
然而,有监督的主题识别算法需要大量的标注数据,故需要消耗大量的人力物力,并且无法对特征领域或新出现的领域文本进行主题预测。
因此,如何提升主题识别的正确率和效率成为本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本说明书实施例提供了一种文本处理方法。本说明书同时涉及一种文本处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
获取待识别沟通文本,并确定所述待识别沟通文本中的目标沟通对象;
在所述待识别沟通文本中获取所述目标沟通对象对应的至少两个待识别沟通子文本;
拼接所述至少两个待识别沟通子文本,获得至少一个目标沟通文本;
将每个目标沟通文本输入至主题识别模型进行处理,获得每个目标沟通文本对应的文本主题。
根据本说明书实施例的第二方面,提供了一种文本处理装置,包括:
确定模块,被配置为获取待识别沟通文本,并确定所述待识别沟通文本中的目标沟通对象;
获取模块,被配置为在所述待识别沟通文本中获取所述目标沟通对象对应的至少两个待识别沟通子文本;
拼接模块,被配置为拼接所述至少两个待识别沟通子文本,获得至少一个目标沟通文本;
输入模块,被配置为将每个目标沟通文本输入至主题识别模型进行处理,获得每个目标沟通文本对应的文本主题。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取待识别沟通文本,并确定所述待识别沟通文本中的目标沟通对象;
在所述待识别沟通文本中获取所述目标沟通对象对应的至少两个待识别沟通子文本;
拼接所述至少两个待识别沟通子文本,获得至少一个目标沟通文本;
将每个目标沟通文本输入至主题识别模型进行处理,获得每个目标沟通文本对应的文本主题。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京飞象星球科技有限公司,未经北京飞象星球科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210753298.8/2.html,转载请声明来源钻瓜专利网。