[发明专利]一种舆情情感细粒度三元组抽取的方法在审
申请号: | 202211168190.9 | 申请日: | 2022-09-23 |
公开(公告)号: | CN115344716A | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 罗锐;刘华轶;王波;金灿 | 申请(专利权)人: | 重庆旅游云信息科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 成都华复知识产权代理有限公司 51298 | 代理人: | 余鹏 |
地址: | 401120 重庆*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 舆情 情感 细粒度 三元 抽取 方法 | ||
1.一种舆情情感细粒度三元组抽取的方法,其特征在于,具体包括以下步骤:
步骤S1:对训练样本进行打标签;
步骤S2:编码并取得文本的向量表示;
步骤S3:向量表示优化;
步骤S4:获取注意力矩阵;
步骤S5:解码实体获取分数;
步骤S6:获取实体和三元组;
步骤S7:梯度下降训练;
步骤S8:迭代第2-7步直至模型收敛;
步骤S9:通过训练好的所述模型进行预测。
2.根据权利要求1所述的一种舆情情感细粒度三元组抽取的方法,其特征在于,所述步骤S1:对训练样本进行打标签,包括:
通过所述下标索引对表示一对有关系的目标和情感描述词;
通过所述BIO标注方式目标,描述词及对应的情感。
3.根据权利要求1所述的一种舆情情感细粒度三元组抽取的方法,其特征在于,所述步骤S2:编码并取得文本的向量表示,包括:
通过所述预训练模型对训练文本进行编码,得到文本的向量表示。
4.根据权利要求1所述的一种舆情情感细粒度三元组抽取的方法,其特征在于,所述步骤S4:获取注意力矩阵,包括:
得到所述文本向量分别通过实体预测模块和关系预测模块;
分别获得所述实体的转移矩阵和实体间的注意力矩阵;
所述实体预测模块为多层隐藏层+CRF层网络;
所述关系预测模块为多层注意力机制模块网络。
5.根据权利要求1所述的一种舆情情感细粒度三元组抽取的方法,其特征在于,所述步骤S5:解码实体获取分数,包括:
通过所述CRF算法对实体的转移矩阵进行解码得到实体;
通过所述token将注意力进行平均得到实体间的分数。
6.根据权利要求1所述的一种舆情情感细粒度三元组抽取的方法,其特征在于,所述步骤S6:获取实体和三元组,包括:
通过所述解码得到的实体;
通过设定的所述阈值获得有关系的实体,最终得到三元组。
7.根据权利要求1所述的一种舆情情感细粒度三元组抽取的方法,其特征在于,所述步骤S7:梯度下降训练,包括:
选择所述negative log likel ihood损失函数和cross entropy损失函数分别对所述实体预测模块和关系预测模块进行梯度下降训练。
8.根据权利要求1所述的一种舆情情感细粒度三元组抽取的方法,其特征在于,所述步骤S9:通过训练好的所述模型进行预测,包括:
通过训练好的所述模型进行预测,进行第S2-S5步对新的文本进行预测。
9.根据权利要求1所述的一种舆情情感细粒度三元组抽取的方法,其特征在于,所述步骤S2:编码并取得文本的向量表示,包括:
预训练模型为所述bert模型,12层编码器,768维向量;
文本向量为所述cls对应的向量。
10.根据权利要求1所述的一种舆情情感细粒度三元组抽取的方法,其特征在于,所述步骤S3:向量表示优化,包括:
将所述语料集TB输入到训练样本中;
利用所述语料集TB对文本向量进行映射和优化;
将优化后的所述文本向量输入至训练样本的Transformer编码器中;
对所述训练样本的预训练任务进行情感优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆旅游云信息科技有限公司,未经重庆旅游云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211168190.9/1.html,转载请声明来源钻瓜专利网。