[发明专利]一种文本分析方法、装置及存储介质在审
申请号: | 201910220954.6 | 申请日: | 2019-03-22 |
公开(公告)号: | CN110032736A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 陈海波 | 申请(专利权)人: | 深兰科技(上海)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 200336 上海市长宁区威*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 注意力机制 存储介质 记忆网络 情感词典 情感因素 文本分类 文本分析 文本 分析 情感分类 文本表达 权重 预设 注意力 挖掘 申请 | ||
1.一种文本分析方法,其特征在于,所述方法包括:
获取待分析文本;
通过预先训练好的具有注意力机制的长短时记忆网络模型分析对所述待分析文本进行分析,得到所述待分析文本表达的情感;其中,所述网络模型是根据以下方法训练得到的:
读取样本文本;并根据情感词典得到所述样本文本的由情感值构成的第一向量;并,将读取的样本文本输入到待训练的所述网络模型中得到所述样本文本的由注意力权重构成的第二向量;
计算所述第一向量和所述第二向量的距离,通过调整所述网络模型的参数使得所述距离小于第一预设阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据情感词典得到所述样本文本的由情感值构成的第一向量,具体包括:
通过词性标注工具对所述样本文本中的文字进行标注,得到各文字的词性;
查询情感词典,得到各文字在其各词性下的情感值;
由各文字的情感值构成所述样本文本的第一向量。
3.根据权利要求2所述的方法,其特征在于,所述查询情感词典,得到各文字在其各词性下的情感值,具体包括:
针对每个文字,确定该文字的释义;
确定该文字的每个释义对应的词性;
在情感词典中,查找该文字的每个词性对应的情感值;
将该文字的情感值的和与该文字的释义种数的比值作为该文字的最终的情感值。
4.根据权利要求1所述的方法,其特征在于,所述将读取的样本文本输入到待训练的所述网络模型中得到所述样本文本的由注意力权重构成的第二向量,具体包括:
将所述样本文本中的各文字输入到待训练的所述网络模型中,得到各文字在所述样本文本中所占注意力权重;
由各文字在所述样本文本中所占注意力权重构成所述样本文本的第二向量。
5.根据权利要求2所述的方法,其特征在于,所述根据情感词典得到所述样本文本的由情感值构成的第一向量之前,所述方法还包括:
将各文字的情感值与第二预设阈值进行比较;
过滤掉情感值小于第二预设阈值的文字及其对应的情感值。
6.根据权利要求5所述的方法,其特征在于,所述计算所述第一向量和所述第二向量的距离,通过调整所述网络模型的参数使得所述距离小于第一预设阈值,具体包括:
将所述距离添加到所述网络模型的损失函数中;
调整所述损失函数中的参数,使所述距离小于第一预设阈值。
7.根据权利要求6所述的方法,其特征在于,所述损失函数中包含L2正则化惩罚参数。
8.一种文本分析装置,其特征在于,所述装置包括:
获取文本模块,用于获取待分析文本;
分析模块,用于通过预先训练好的具有注意力机制的长短时记忆网络模型分析对所述待分析文本进行分析,得到所述待分析文本表达的情感;其中,所述网络模型是根据以下方法训练得到的:
获取向量模块,用于读取样本文本;并根据情感词典得到所述样本文本的由情感值构成的第一向量;并,将读取的样本文本输入到待训练的所述网络模型中得到所述样本文本的由注意力权重构成的第二向量;
计算模块,用于计算所述第一向量和所述第二向量的距离,通过调整所述网络模型的参数使得所述距离小于第一预设阈值。
9.一种计算机可读介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1-7中任一权利要求所述的方法。
10.一种计算装置,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任一权利要求所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深兰科技(上海)有限公司,未经深兰科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910220954.6/1.html,转载请声明来源钻瓜专利网。