[发明专利]一种基于多语言文本数据分析方法在审
申请号: | 202110257644.9 | 申请日: | 2021-03-09 |
公开(公告)号: | CN113076741A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 潘晓光;焦璐璐;令狐彬;宋晓晨;韩丹 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳科润知识产权代理事务所(普通合伙) 44724 | 代理人: | 李小妮 |
地址: | 030000 山西省*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语言 文本 数据 分析 方法 | ||
1.一种基于多语言文本数据分析方法,其特征在于,包括:文本数据采集模块、数据处理模块、模型构建模块和模型保存模块,
所述文本数据采集模块用于采集文本数据,并对所述文本数据类别进行标注,完成模型的数据集构建;
所述数据处理模块用于通过嵌入层将文本中的词条转化为向量以方便进入架构;
所述模型构建模块用于构建基于卷积神经网络CNN和长短期记忆网络LSTM的训练模型,通过卷积神经网络CNN提取与语言无关的模型的特征,利用长短期记忆网络LSTM来捕获长期依赖关系,以便后续数据处理;
所述模型保存模块用于当模型的损失函数不再下降,保存模型。
2.如权利要求1所述的一种基于多语言文本数据分析方法,其特征在于,所述文本数据采集模块中,使用的数据集可以由多种语言的文本内容组成,并被手动标注为为正类、中性类、负面类或无关类。
3.如权利要求1所述的一种基于多语言文本数据分析方法,其特征在于,所述数据处理模块中,对数据集进行标准的训练集和测试集的分割之后输入模型,模型对于给定的输入文本进行词嵌入,即将每个单词映射到一个d维向量,用来在之后进行学习特征表示,所述特征转发到一个小分类器进行最终的预测。
4.如权利要求1所述的一种基于多语言文本数据分析方法,其特征在于,所述模型构建模块中,包括如下子模块:
CNN子模块:CNN即卷积神经网络,使用CNN提取与语言无关的模型的特征;
LSTM子模块:LSTM即长短期记忆网络,使用两层LSTM来捕获长期依赖关系,以便后续数据处理;
最大池化层子模块:用来提取特征和降维;
全连接层子模块:整合卷积层或者池化层中具有类别区分性的局部信息.提升整个网络性能;
Dropout层子模块:添加Dropout层可以防止模型过拟合,其中Dropout是指在深度学习网络的训练过程中,按照一定的概率将一部分神经网络单元暂时从网络中丢弃,相当于从原始的网络中找到一个更简练的网络;
批标准化子模块:通过规范化手段,把每层神经网络任意神经元在做非线性变换前的激活输入值的分布强行拉回到均值为0方差为1的标准正态分布;
Softmax层子模块:即Softmax回归模型,用来解决模型中的分类问题,Softmax的公式如下:
5.如权利要求1所述的一种基于多语言文本数据分析方法,其特征在于,所述文本数据采集模块连接所述数据处理模块、所述数据处理模块块连接所述模型构建模块、所述模型构建模块连接所述模型保存模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110257644.9/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置