[发明专利]一种数据处理方法、电子设备及存储介质有效
申请号: | 201910424547.7 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110134791B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 宁超 | 申请(专利权)人: | 北京泰迪熊移动科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 江宇 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 电子设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
发现初始文本信息中包含的人名、地名与时间的实体,将初始文本信息中包含的涉及隐私的信息或者符合其他特定排除条件的信息进行消除,形成泛化文本信息;
将泛化文本信息集合中的各泛化文本信息转化为基于向量空间模型的向量表示,对向量表示的泛化文本信息进行划分,形成短文本聚类簇;确定挖掘出更细粒度的具有相似语义意图的短文本信息时,进行合并,形成聚类簇信息;及
对所述聚类簇信息进行范式提取操作,形成聚类语义范式。
2.根据权利要求1所述数据处理方法,其特征在于,所述初始文本信息包括至少一条初始文本语料。
3.根据权利要求2所述数据处理方法,对初始文本信息进行泛化处理,形成泛化文本信息包括:
基于深度信息的命名实体识别模型,对所述至少一条初始文本语料中待泛化实体进行NER泛化处理。
4.根据权利要求3所述数据处理方法,其特征在于,所述待泛化实体包括人名、地名、时间中的至少一个。
5.根据权利要求4所述数据处理方法,其特征在于,所述泛化文本信息集合包括至少一所述泛化文本信息。
6.根据权利要求5所述数据处理方法,其特征在于,对泛化文本信息集合进行聚类处理,形成聚类簇信息包括:
将所述泛化文本信息转化为基于向量空间模型的向量表示;及
采用二分KMeans聚类算法进行文本相似度聚类,形成聚类簇信息。
7.根据权利要求6所述数据处理方法,其特征在于,所述采用二分KMeans聚类算法进行文本相似度聚类,形成聚类簇信息包括:
对所述泛化文本信息划分,形成短文本聚类簇;
判断是否挖掘出最细粒度的具有相似意图的短文本信息;
若判断结果为是,则进行合并,以生成聚类簇信息;
若判断结果为否,则继续进入步骤对所述泛化文本信息划分,形成短文本聚类簇。
8.根据权利要求7所述数据处理方法,其特征在于,所述对所述聚类簇信息进行范式提取操作,形成聚类语义范式包括:
对所述聚类簇信息中包含至少两条短文本信息的第一聚类簇,逐个提取最长公共子序列;
将所述最长公共子序列作为所述第一聚类簇的聚类语义范式。
9.一种电子设备,包括:
至少一处理器,用于实现各程序;
至少一存储器,用于存储至少一个程序;
所述至少一个程序被所述至少一处理器执行时,所述电子设备实现如权利要求1-8中任一所述的方法。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京泰迪熊移动科技有限公司,未经北京泰迪熊移动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910424547.7/1.html,转载请声明来源钻瓜专利网。