[发明专利]一种数据处理方法、电子设备及存储介质有效
申请号: | 201910424547.7 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110134791B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 宁超 | 申请(专利权)人: | 北京泰迪熊移动科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 江宇 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 电子设备 存储 介质 | ||
本发明公开了一种数据处理方法。所述数据处理方法包括:对初始文本信息进行泛化处理,形成泛化文本信息;对泛化文本信息集合进行聚类处理,形成聚类簇信息;及对所述聚类组信息进行范式提取操作,形成聚类语义范式。本发明还公开了一种电子设备及存储介质。所述数据处理方法提供了有效的数据聚类处理方法,并且也加快了聚类的速度并提高了聚类的准确性。
技术领域
本发明属于电子数据技术领域,尤其涉及一种数据处理方法、电子设备及存储介质。
背景技术
电子智能设备的应用越来越广泛,已经成为人们日常不可缺少的工具,如笔记本电脑、手机、平板电脑、智能手表等等。网络技术的发展进一步将电子智能设备的作用扩展至社会生活的方方面面。人们在使用电子智能设备产生了大量的数据,这些数据中不可避免会出现相近似或重复的数据。例如,移动通信运营商会给用户发送的大量类似通知短信,公司在不同网购平台发布产品的相似或相同简介信息。因此,如何处理这些相同或近似数据,更有效便利的利用数据,成为需要解决的问题。
发明内容
本发明提供一种数据处理方法。所述数据处理方法包括:对初始文本信息进行泛化处理,形成泛化文本信息;对泛化文本信息集合进行聚类处理,形成聚类簇信息;及对所述聚类组信息进行范式提取操作,形成聚类语义范式。
本发明另一方面提供一种电子设备,包括至少一处理器,用于实现各程序;至少一存储器,用于存储至少一个程序;所述至少一个程序被所述至少一处理器执行时,所述电子设备实现本发明提供的数据处理方法。
本发明另一方面提供一种存储介质,存储有程序,所述程序被处理器执行时实现本发明提供的数据处理方法。
本发明提供的处理方法,通过对短文本进行泛化处理,并对泛化后的文本进行聚类处理,进而从聚类组信息中进行范式提出操作,最终形成聚类语义范式,提供了有效的数据聚类处理方法,并且也加快了聚类的速度并提高了聚类的准确性。
附图说明
图1为本发明实施例提供的数据处理方法的流程图。
图2为所述数据处理方法的NER泛化处理示例示意图。
图3为所述数据处理方法的聚类处理的流程图。
图4为所述聚类处理的形成短文本聚类簇信息的流程示意图。
图5为所述聚类处理的示意图。
图6为所述数据处理方法的范式提取操作的示意图。
图7为所述数据处理方法的示例示意图。
图8为本发明实施例提供的电子设备的示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示为采用本发明实施例提供的一种数据处理方法的流程。所述数据处理方法可应用于各种电子设备,包括智能手机、电脑、网络服务器等。所述数据处理方法包括以下步骤310,步骤320及步骤330。
步骤310,对初始文本信息进行泛化处理,形成泛化文本信息。
在一实施例中,采用NER泛化对初始文本信息进行泛化处理。NER泛化是使用基于深度学习的命名实体识别模型,发现短文本中包含的诸如人名、地名与时间等实体,并对这些实体进行泛化处理。通过泛化处理,对短文本可能包含的一些涉及隐私的信息或者符合其他特定排除条件的信息进行了消除。此外,泛化处理还可使短文本的特征更为显著,提到后续处理的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京泰迪熊移动科技有限公司,未经北京泰迪熊移动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910424547.7/2.html,转载请声明来源钻瓜专利网。