[发明专利]文本数据的数据处理方法及应用有效
申请号: | 201810370375.5 | 申请日: | 2018-04-24 |
公开(公告)号: | CN108509427B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 杨鹏 | 申请(专利权)人: | 北京慧闻科技(集团)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06N3/04 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰 |
地址: | 100124 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据 数据处理 方法 应用 | ||
本申请涉及文本数据的数据处理方法、数据处理装置和电子设备。该数据处理方法包括:获取用户的文本数据;以第一特征提取方法提取所述文本数据以获得第一特征数据;以第二特征提取方法提取所述文本数据以获得第二特征数据;以及,以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。基于多特征数据对所述混合卷积神经网络模型进行训练,可提高所述混合卷积神经网络模型的有效性、可靠性和鲁棒性。
技术领域
本发明总体地涉及数据处理领域,特别是涉及用于基于文本数据的数据处理方法、数据处理装置和电子设备。
背景技术
随着互联网技术的发展和普及,电子商务在人们日常生活和购物中所占的比重越来越大。在用户进行电子商务消费的过程中,会产生大量与产品相关的电子商务数据,例如,关于产品的评论数据。因此,针对如何通过对电子商务数据的数据挖掘,例如对电子商务数据进行情感信息挖掘,以更为全面地了解相关产品并进行产品优化和产业优化,已逐渐成为是当前科学研究的一个热点领域。
在电子商务数据挖掘方面应用了大量的算法,这些算法都发挥着重要的作用,其种不少算法的应用非常成功,应用领域也很广。但是,这些算法也在不同方面、例如鲁棒性、可预测性方面存在不足。
因此,需要改进的用于电子商务数据挖掘的数据处理方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种数据处理方法、数据处理装置和电子设备,其基于多特征数据对所述混合卷积神经网络模型进行训练,可提高所述混合卷积神经网络模型的有效性、可靠性和鲁棒性。
根据本申请的一方面,提供了一种数据处理方法,包括:获取用户的文本数据;以第一特征提取方法提取所述文本数据以获得第一特征数据;以第二特征提取方法提取所述文本数据以获得第二特征数据;以及,以所述第一特征数据和所述第二特征数据训练混合卷积神经网络模型,所述混合卷积神经网络模型包括用于混合所述第一特征数据和所述第二特征数据的混合层。
在上述数据处理方法中,所述第一特征提取方法是用于提取所述文本数据的情感词特征的特征提取方法;以及,所述第二特征提取方法是用于提取所述文本数据的词频特征的特征提取方法。
在上述数据处理方法中,以第一特征提取方法提取所述文本数据以获得第一特征数据的步骤,包括:对所述文本数据进行词向量转换以获得包含所述文本数据中的每个词的词向量的词向量空间;对所述文本数据进行分词;基于情感词典筛选出与所述情感词典匹配的情感词语;以及选择所述词向量空间中与所述情感词语对应的情感词向量作为所述第一特征数据。
在上述数据处理方法中,在基于情感词典筛选出与所述情感词典匹配的情感词语的步骤之前包括:根据预设规则从开源资源中筛选出情感特征种子词;以及,基于所述情感特征种子词构建所述情感词典。
在上述数据处理方法中,基于所述情感特征种子词构建所述情感词典的步骤,包括:选择所述词向量空间中与所述情感特征种子词之间的距离满足预设距离的k个候选词语;以所述k个候选词语作为更新的情感特征种子词添加至所述情感词典;以及,减小k的值,并将与所述更新的情感特征种子词之间的距离满足所述预设距离的所述k个候选词语更新至所述情感词典,以构建具有预设规模的所述情感词典。
在上述数据处理方法中,以第二特征提取方法提取所述文本数据以获得第二特征数据的步骤包括:对所述文本数据进行分词;通过语言词典对所述文本数据中的每个词进行词频统计;去除所述文本数据中词频低于预定词频阈值的低频词;将所述文本数据中所述低频次以外的其余词语降序排列编号以创建词频词典;基于所述词频词典筛选出所述文本数据中与所述词频词典匹配的词频词语;以及,将所述词频词语转换为所述词频词典中的编号以作为所述第二特征数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京慧闻科技(集团)有限公司,未经北京慧闻科技(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810370375.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种深度多维度流量语义分析方法
- 下一篇:耳机翻译方法和系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置