[发明专利]基于关键信息抽取的金融舆情细分方面检测方法和设备在审
申请号: | 202111425815.0 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114398480A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 王进;周阳;陈怡雯;杜雨露;方阳 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 黄宗波 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键 信息 抽取 金融 舆情 细分 方面 检测 方法 设备 | ||
1.基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:包括以下步骤,
S1、对金融文本数据和金融舆情标签描述集合进行预处理;
S2、利用循环神经网络对金融文本片段句和金融舆情标签句进行编码,得到片段句表征;
S3、对金融文本片段句和金融舆情标签描述集合进行相似度表征,再进行分类训练,得到关键信息句抽取分类辅助模型;
S4、利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度,并选取标签关键句;
S5、构建标签关键句组合输入金融文本,进行细分舆情分类。
2.根据权利要求1所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S1中,在预处理时,对原数据集D的所有金融文本进行划分,将每条金融文本按照中文分隔符分割成句表示,并按连贯概率进行合并,获得片段句。
3.根据权利要求2所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S1中,按连贯概率进行合并的方式具体为,将当前句和下一句拼接送入预训练BERT模型,根据预训练BERT模型的输出是否是下一句的概率,得到语句连贯概率,若概率大于80%,则拼接当前句和下一句,作为新的片段句,若概率小于等于80%,则将当前句和下一句都当做不同的片段句;再在片段句的句尾添加预定义学习字符[s1],对各金融舆情类型标签描述句的句尾添加预定义学习字符[s2]。
4.根据权利要求3所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S2的具体方法为,
S201、给定输入的一个金融文本q个片段句集合X={M1,M2,…,Mq},对每一个片段句Mj={wj1,wj2,…,wjn},送入到循环神经网络中,其中n表示片段句的长度,wji表示片段句j第i个位置的字;
S202、取最后一个时间步的输出表示向量为片段句Mj的整体表征,其中R表示实数空间,d表示循环神经网络的隐层维度;
S203、给定标签句描述集合L={l1,l2,…,lk},其中k表示标签的数量,li表示第i个标签的描述;
S204、对于每一个标签描述lt,送入到循环神经网络中,取最后一个时间步的输出表示为标签描述lt的整体表征,其中R表示实数空间,d表示循环神经网络的隐层维度。
5.根据权利要求4所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S3中,对金融文本片段句和标签描述集合进行相似度表征的具体方法为,对第t个标签描述表征通过分别计算与金融文本q个片段句表征集合的余弦相似度,得到标签t与金融文本的相似度表征Xt∈Rq,其中,R表示实数空间,q表示片段句的数量。
6.根据权利要求5所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S3中,进行分类训练得到关键信息句抽取分类辅助模型的方法为,将送入全连接层,用二分类交叉熵进行分类训练得到关键信息句抽取分类辅助模型。
7.根据权利要求6所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S4的具体方法为:在得到关键信息句抽取分类辅助模型后,根据关键信息句抽取分类辅助模型计算文本与标签t获得的相似度表征取前10%的片段句作为关于标签t的新关键文本其中表示前10%的片段句中的第i句,c表示关于标签t的新关键文本的关键句数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111425815.0/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置