[发明专利]文本数据的数据处理方法及应用有效

专利信息
申请号: 201810370375.5 申请日: 2018-04-24
公开(公告)号: CN108509427B 公开(公告)日: 2022-03-11
发明(设计)人: 杨鹏 申请(专利权)人: 北京慧闻科技(集团)有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/242;G06N3/04
代理公司: 北京睿邦知识产权代理事务所(普通合伙) 11481 代理人: 徐丁峰
地址: 100124 北京市朝阳区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 数据 数据处理 方法 应用
【说明书】:

本申请涉及文本数据的数据处理方法、数据处理装置和电子设备。该数据处理方法包括:获取用户的文本数据;以第一特征提取方法提取所述文本数据以获得第一特征数据;以第二特征提取方法提取所述文本数据以获得第二特征数据;以及,以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。基于多特征数据对所述混合卷积神经网络模型进行训练,可提高所述混合卷积神经网络模型的有效性、可靠性和鲁棒性。

技术领域

发明总体地涉及数据处理领域,特别是涉及用于基于文本数据的数据处理方法、数据处理装置和电子设备。

背景技术

随着互联网技术的发展和普及,电子商务在人们日常生活和购物中所占的比重越来越大。在用户进行电子商务消费的过程中,会产生大量与产品相关的电子商务数据,例如,关于产品的评论数据。因此,针对如何通过对电子商务数据的数据挖掘,例如对电子商务数据进行情感信息挖掘,以更为全面地了解相关产品并进行产品优化和产业优化,已逐渐成为是当前科学研究的一个热点领域。

在电子商务数据挖掘方面应用了大量的算法,这些算法都发挥着重要的作用,其种不少算法的应用非常成功,应用领域也很广。但是,这些算法也在不同方面、例如鲁棒性、可预测性方面存在不足。

因此,需要改进的用于电子商务数据挖掘的数据处理方案。

发明内容

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种数据处理方法、数据处理装置和电子设备,其基于多特征数据对所述混合卷积神经网络模型进行训练,可提高所述混合卷积神经网络模型的有效性、可靠性和鲁棒性。

根据本申请的一方面,提供了一种数据处理方法,包括:获取用户的文本数据;以第一特征提取方法提取所述文本数据以获得第一特征数据;以第二特征提取方法提取所述文本数据以获得第二特征数据;以及,以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。

在上述数据处理方法中,所述第一特征提取方法是用于提取所述文本数据的情感词特征的特征提取方法;以及,所述第二特征提取方法是用于提取所述文本数据的词频特征的特征提取方法。

在上述数据处理方法中,以第一特征提取方法提取所述文本数据以获得第一特征数据的步骤,包括:对所述文本数据进行词向量转换以获得包含所述文本数据中的每个词的词向量的词向量空间;对所述文本数据进行分词;基于情感词典筛选出与所述情感词典匹配的情感词语;以及选择所述词向量空间中与所述情感词语对应的情感词向量作为所述第一特征数据。

在上述数据处理方法中,在基于情感词典筛选出与所述情感词典匹配的情感词语的步骤之前包括:根据预设规则从开源资源中筛选出情感特征种子词;以及,基于所述情感特征种子词构建所述情感词典。

在上述数据处理方法中,基于所述情感特征种子词构建所述情感词典的步骤,包括:选择所述词向量空间中与所述情感特征种子词之间的距离满足预设距离的k个候选词语;以所述k个候选词语作为更新的情感特征种子词添加至所述情感词典;以及,减小k的值,并将与所述更新的情感特征种子词之间的距离满足所述预设距离的所述k个候选词语更新至所述情感词典,以构建具有预设规模的所述情感词典。

在上述数据处理方法中,以第二特征提取方法提取所述文本数据以获得第二特征数据的步骤包括:对所述文本数据进行分词;通过语言词典对所述文本数据中的每个词进行词频统计;去除所述文本数据中词频低于预定词频阈值的低频词;将所述文本数据中所述低频次以外的其余词语降序排列编号以创建词频词典;基于所述词频词典筛选出所述文本数据中与所述词频词典匹配的词频词语;以及,将所述词频词语转换为所述词频词典中的编号以作为所述第二特征数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京慧闻科技(集团)有限公司,未经北京慧闻科技(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810370375.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top