[发明专利]文本处理方法及装置在审
申请号: | 202210753298.8 | 申请日: | 2022-06-29 |
公开(公告)号: | CN115114907A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 阎覃;孙子钧;张天宇;赵薇;柳景明 | 申请(专利权)人: | 北京飞象星球科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/289;G06F40/216;G06F40/242 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李琪 |
地址: | 100102 北京市朝阳区广顺南大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 | ||
1.一种文本处理方法,其特征在于,包括:
获取待识别沟通文本,并确定所述待识别沟通文本中的目标沟通对象;
在所述待识别沟通文本中获取所述目标沟通对象对应的至少两个待识别沟通子文本;
拼接所述至少两个待识别沟通子文本,获得至少一个目标沟通文本;
将每个目标沟通文本输入至主题识别模型进行处理,获得每个目标沟通文本对应的文本主题。
2.如权利要求1所述的方法,其特征在于,确定所述待识别沟通文本中的目标沟通对象,包括:
基于所述待识别沟通文本的文本类型创建正则表达式;
在所述待识别沟通文本中确定参考文本集合;
在所述参考文本集合中筛选到与所述正则表达式对应的目标沟通子文本的情况下,确定所述目标沟通子文本对应的沟通对象为目标沟通对象。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
在所述参考文本集合中未筛选到与所述正则表达式对应的目标沟通子文本的情况下,确定所述参考文本集合中每个沟通对象对应的文本字符数量;
基于每个沟通对象对应的文本字符数量确定目标沟通对象。
4.如权利要求1所述的方法,其特征在于,拼接所述至少两个待识别沟通子文本,获得至少一个目标沟通文本,包括:
确定所述待识别沟通文本中每个沟通子文本的文本序号;
将连续的文本序号对应的待识别沟通子文本进行拼接,获得至少一个目标沟通文本。
5.如权利要求1所述的方法,其特征在于,将每个目标沟通文本输入至主题识别模型进行处理,获得每个目标沟通文本对应的文本主题,包括:
将每个目标沟通文本输入至主题识别模型进行处理,获得每个目标沟通文本对应的主题标识以及与每个主题标识对应的词语信息;
根据每个目标沟通文本对应的主题标识和主题标识对应的词语信息确定每个目标沟通文本对应的文本主题。
6.如权利要求1所述的方法,其特征在于,获取待识别沟通文本,包括:
获取初始沟通文本;
在所述初始沟通文本中不包含预设关键词对应的沟通子文本的情况下,确定所述初始沟通子文本对应的沟通子文本数量;
在所述沟通子文本数量大于第一数量阈值的情况下,确定所述初始沟通文本为待识别沟通文本。
7.如权利要求6所述的方法,其特征在于,在所述沟通子文本数量大于第一数量阈值的情况下,确定所述初始沟通文本为待识别沟通文本,包括:
在所述沟通子文本数量大于第一数量阈值的情况下,确定所述初始沟通文本对应的沟通对象数量;
在所述沟通对象数量大于第二数量阈值的情况下,确定每个沟通对象对应的沟通子文本数量;
在每个沟通子文本数量小于第三数量阈值的情况下,确定所述初始沟通文本为待识别沟通文本。
8.如权利要求1所述的方法,其特征在于,将每个目标沟通文本输入至主题识别模型进行处理,包括:
基于目标分词字典对每个目标沟通文本进行分词,获得每个目标沟通文本对应的分词结果;
将每个分词结果输入至所述主题识别模型进行处理。
9.如权利要求8所述的方法,其特征在于,所述目标分词字典基于如下步骤获得:
统计沟通文本集合中沟通词语对的数量,并确定大于预设词语对数量阈值的目标沟通词语对;
根据每个目标沟通词语对创建目标分词字典。
10.如权利要求1所述的方法,其特征在于,所述主题识别模型采用如下方式训练获得:
获取样本沟通文本,并确定所述样本沟通文本的样本沟通对象;
在所述样本沟通文本中确定所述样本沟通对象对应的至少两个样本沟通子文本;
拼接所述至少两个样本沟通子文本,获得至少一个目标样本沟通文本;
将每个目标样本沟通文本和预设主题数量输入至基础主题识别模型进行处理,获得主题识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京飞象星球科技有限公司,未经北京飞象星球科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210753298.8/1.html,转载请声明来源钻瓜专利网。