[发明专利]文本特征提取及提取模型优化方法以及介质、装置和设备有效
申请号: | 201811018106.9 | 申请日: | 2018-09-01 |
公开(公告)号: | CN109189930B | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 方正;周森;朱浩齐;杨卫强;林洋港;李净 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 朱海波 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 特征 提取 模型 优化 方法 以及 介质 装置 设备 | ||
本发明提供了一种文本特征提取模型的优化方法和文本特征提取方法以及介质、装置和计算设备。该文本特征提取模型的优化方法包括以下步骤:获取具有多视角特征的文本数据的各个所述视角分别对应的第一特征矩阵;根据各个所述视角分别对应的网络属性信息将各个所述视角分别对应的第一特征矩阵进行融合,得到所述文本数据的第二特征矩阵;当所述第二特征矩阵满足预定条件时,输出所述文本特征提取模型优化后的各个所述视角分别对应的网络属性信息,以及输出所述第二特征矩阵作为所述文本特征提取模型优化后的网络数据矩阵。本发明提高了文本语义分析和分类等应用任务的准确率和精准度。
技术领域
本发明的实施方式涉及信息处理技术领域,更具体地,本发明的实施方式涉及文本特征提取及提取模型优化方法以及介质、装置和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前深度学习的技术方法已经广泛应用到图像、文本处理的各个领域,其中以自编码器、卷积神经网络、循环神经网络、长短期记忆网络为代表的深度学习技术因为非常良好的特征学习能力,被学术界和工业界广泛运用于图像分类、文本语义检测的实际项目中。然而传统的自编码器特征学习技术,忽视了实际数据的多视角特征,只能针对单一的特征进行网络训练和特征学习,因此忽视了数据多视角特征中大量有用的结构化信息。这些多视角特征,各自都携带了数据某一方面的信息特征,比如文本的词性特征具有表示词语词性搭配的规律信息,TF-IDF(term frequency-inverse document frequency,词频-逆文本频率指数)特征中具有文本中词的重要性的权重信息,判断联系方式存在与否的布尔特征隐含了文本内容的广告推广和邀约意图。这些含有不同方面信息的特征,相互之间具有信息补充的作用,能够更好、更全面地表示一条数据,从而能够帮助后续的文本语义分析分类等应用任务。而传统的自编码器技术只能对特征单个做处理,没有充分考虑文本数据中的多视角特征的关联辅助信息和差异性信息,只能对多视角特征做简单的向量连接作为输入,这样就丢失了很多数据内在的结构信息,因此存在很大的局限性,用传统自编码器技术融合得到的特征,不能充分利用数据的多视角特征结构来帮助后续的分类、聚类等机器学习任务。
而现有的其他一些相似应用的多视角特征融合技术也存在各自一些缺点。
Ye在2015年提出了ODAE(Orthogonal Denoising Autoencoders,正交去早自动编码器)方法,这种技术方法的只适用于特征之间有更多的独立正交结构信息的场景,在训练中强制性地将网络中的一部分系数置为零,而没有考虑并丢失了多视角特征之间的辅助结构信息,因此在多数应用场景下学习得到的特征并非是最优的。Wang提出了针对跨数据域迁移学习多视角特征融合的Coupled Marginalized Auto-encoders(耦合边缘化自动编码器)技术,该方法忽视了各个多视角特征之间的联系,也没有处理多视角特征在编码网络编码时的特征差异带来的不一致性,而且模型学习得到的特征表示也不具备非负性所具有可解释性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811018106.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汇票交易机器人的信息分类系统
- 下一篇:一种目标语句的筛选方法及装置