[发明专利]训练情感分类模型和文本情感极性分析的方法及系统在审
申请号: | 201510931457.9 | 申请日: | 2015-12-15 |
公开(公告)号: | CN105512687A | 公开(公告)日: | 2016-04-20 |
发明(设计)人: | 张建华;刘鹏 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06F17/27 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬;孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 情感 分类 模型 文本 极性 分析 方法 系统 | ||
1.一种训练情感分类模型的方法,包括:
从语料库中采集数据,获得原始数据;
对所述原始数据进行预处理,获得预处理数据;
通过神经网络模型,从所述预处理数据中提取词向量;
将所述词向量,按预设融合规则进行融合,生成句向量特征;
根据所述句向量特征,训练情感分类模型,得到训练后的情感分类模型。
2.如权利要求1所述的方法,其中,所述通过神经网络模型,从所述预处 理数据中提取词向量,包括:
将所述预处理数据中的词转换成0-1的向量并按位相加后,作为神经网络 模型的输入层;
以霍夫曼编码树作为所述神经网络模型的输出层;
使所述神经网络模型无监督学习得到所述词对应的词向量。
3.如权利要求1所述方法,其中,所述按预设融合规则进行融合,包括:
按预设规则进行叠加。
4.如权利要求1所述的方法,其中,所述根据所述句向量特征,训练情感 分类模型,包括:
用所述句向量特征,通过学习模型进行有监督训练,获得情感分类模型。
5.如权利要求1~4任一项所述的方法,其中,所述从语料库中采集数据, 包括:
通过爬虫工具爬取所述语料库中的内容来采集数据。
6.如权利要求1~4任一项所述的方法,其中,所述对所述原始数据进行预 处理,获得预处理数据,包括:
清洗所述原始数据,获得清洗后数据;
对所述清洗后数据做分词和去停用词处理,获得预处理数据。
7.如权利要求6所述方法,其中,所述清洗所述原始数据,包括:
删除所述原始数据中的HTML标签和URL;
当所述语料库中的内容为中文时,将所述原始数据中的繁体字转换成简体 字。
8.一种文本情感极性分析的方法,包括:
从目标文本中提取句向量特征;
根据所述句向量特征和权利要求1~7中任一项所述的训练情感分类模型的 方法得到的训练后的情感分类模型,分析所述目标文本的情感极性。
9.一种训练情感分类模型的系统,其特征在于,包括:
数据采集单元,用于从语料库中采集数据,获得原始数据;
原始数据预处理单元,用于对所述原始数据进行预处理,获得预处理数据;
词向量提取单元,用于通过神经网络模型,从所述预处理数据中提取词向 量;
句向量特征生成单元,用于将所述词向量,按预设融合规则进行融合,生 成句向量特征;以及
情感分类模型训练单元,用于根据所述句向量特征,训练情感分类模型, 得到训练后的情感分类模型。
10.如权利要求9所述的系统,其中,所述原始数据预处理单元包括:
清洗子单元,用于清洗所述原始数据,获得清洗后数据;以及
分词和去停用词子单元,用于对所述清洗后数据做分词和去停用词处理, 获得预处理数据。
11.如权利要求10所述的系统,其中,所述清洗子单元包括:
删除孙单元,用于删除所述原始数据中的HTML标签和URL;以及
转换孙单元,用于当所述语料库中的文字为中文时,将所述原始数据中的 繁体字转换成简体字。
12.一种文本情感极性分析的系统,包括:
句向量特征提取单元,用于从目标文本中提取句向量特征;以及
情感极性分析单元,用于根据所述句向量特征和权利要求9~11中任一项所 述的训练情感分类模型的系统得到的训练后的情感分类模型,分析所述目标文 本的情感极性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510931457.9/1.html,转载请声明来源钻瓜专利网。