[发明专利]文本数据处理方法、装置、电子设备和可读存储介质在审
申请号: | 202011297267.3 | 申请日: | 2020-11-18 |
公开(公告)号: | CN113918710A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 董燮;张益铭;郑邦祺;彭南博 | 申请(专利权)人: | 京东科技控股股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/02;G06N3/08 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海;袁礼君 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 电子设备 可读 存储 介质 | ||
1.一种文本数据处理方法,其特征在于,包括:
获取待识别的对话文本中与目标意图关联的意图转换特征;
提取所述对话文本中与所述目标意图相关的文本嵌入特征;
基于分类模型对所述意图转换特征与所述文本嵌入特征进行分类,以得到第一意图分类或第二意图分类。
2.根据权利要求1所述的文本数据处理方法,其特征在于,所述获取待识别的对话文本中与目标意图关联的意图转换特征包括:
根据所述对话文本构建对话中意图流转过程的有向图;
从所述有向图中提取与所述目标意图关联的所述意图转换特征。
3.根据权利要求2所述的文本数据处理方法,其特征在于,所述根据所述对话文本构建对话中意图流转过程的有向图包括:
确定所述对话文本中每个语句对应的意图标签;
将所述意图标签转化为意图节点;
基于所述意图节点生成所述意图流转过程的有向图。
4.根据权利要求3所述的文本数据处理方法,其特征在于,所述基于所述意图节点生成所述意图流转过程的有向图包括:
根据表征不同意图的相邻的所述意图节点之间的语序确定流转方向;
基于所述流转方向在相邻的所述意图节点之间生成有向边;
基于所述多个意图节点与对应的所述有向边构建所述有向图。
5.根据权利要求3所述的文本数据处理方法,其特征在于,所述从所述有向图中提取与所述目标意图关联的所述意图转换特征包括:
采用图嵌入的方式从所述有向图中提取与所述目标意图关联的所述意图转换特征。
6.根据权利要求5所述的文本数据处理方法,其特征在于,所述采用图嵌入的方式从所述有向图中提取与所述目标意图关联的所述意图转换特征包括:
采用随机游走的方式将所述多个意图节点配置为节点序列;
对所述节点序列中所述目标意图的节点之外的其它节点的无监督任务进行神经网络训练,以得到向量形式的所述意图转换特征。
7.根据权利要求6所述的文本数据处理方法,其特征在于,所述对所述节点序列中所述目标意图的节点之外的其它节点的无监督任务进行神经网络训练,以得到向量形式的所述意图转换特征包括:
基于跳字模型对所述其它节点的无监督任务进行所述神经网络训练;
基于所述神经网络训练的结果,从所述神经网络的隐藏层中获取所述意图节点的图嵌入特征表示,以作为所述意图转换特征。
8.根据权利要求1所述的文本数据处理方法,其特征在于,所述提取所述对话文本中与所述目标意图相关的文本嵌入特征包括:
采用预训练模型从所述对话文本中提取与所述目标意图相关的所述文本嵌入特征。
9.根据权利要求8所述的文本数据处理方法,其特征在于,所述预训练模型为BERT预训练模型;
所述采用预训练模型从所述对话文本中提取与所述目标意图相关的所述文本嵌入特征包括:
基于所述目标意图,将所述对话文本切割为多个子文本;
将所述子文本进行拼接操作,得到拼接文本;
将所述拼接文本输入所述BERT预训练模型,以输出所述文本嵌入特征。
10.根据权利要求9所述的文本数据处理方法,其特征在于,所述基于所述目标意图,将所述对话文本切割为多个子文本包括:
提取所述对话文本中包括所述目标意图的第一语句、所述第一语句之前的第二语句与所述第一语句之后的第三语句;
将所述第一语句、所述第二语句与所述第三语句作为一个所述子文本,执行切割操作,以得到所述多个子文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技控股股份有限公司,未经京东科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011297267.3/1.html,转载请声明来源钻瓜专利网。