[发明专利]基于关键信息抽取的金融舆情细分方面检测方法和设备在审
申请号: | 202111425815.0 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114398480A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 王进;周阳;陈怡雯;杜雨露;方阳 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 黄宗波 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键 信息 抽取 金融 舆情 细分 方面 检测 方法 设备 | ||
本发明涉及大数据人工智能技术领域,公开了一种基于关键信息抽取的金融舆情细分方面检测方法和设备,步骤包括对金融文本数据和金融舆情标签描述集合进行预处理;对金融文本片段句和金融舆情标签句进行编码,得到片段句表征;对金融文本片段句和金融舆情标签描述集合进行相似度表征,再进行分类训练,得到关键信息句抽取分类辅助模型;利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度,并选取标签关键句;构建标签关键句组合输入金融文本,进行细分舆情分类。本发明通过标签描述和片段句建立关键信息句抽取辅助模型,然后抽取关键信息句,构建预训练模型输入,从而有效提升金融舆情细分方面检测的准确率。
技术领域
本发明涉及大数据人工智能技术领域,尤其涉及一种基于关键信息抽取的金融舆情细分方面检测方法。
背景技术
随着互联网的快速发展,每天互联网上会产生大量的资讯信息,但这些资讯信息中含有大量的虚假、诈骗等对社会公众有误导的信息,所以对互联网上的大量文本进行舆情监测,对社会环境监护特别重要;尤其是在金融领域,各种金融文本舆情反应了投资者、金融从业者的情绪,从而会影响决策者的行为,通过对金融文本进行金融舆情细分方面检测,有助于了解金融市场发展趋势,推动金融市场良好发展。金融舆情细分方面检测,指判别金融舆情文本包含哪些方面的舆情信息(如借贷、逾期、诈骗等),每一个舆情方面有对应的标签描述,需要判别出文本是否包含某一个舆情方面的信息。
金融舆情细分方面检测本质上是一个多标签分类问题,目前一般的方法主要是从两个方面来优化此类问题,一是如RNN和CNN的选择不同的语义表征结构,以及如BERT的预训练模型;二是选择不同的解码方式,如当作二分类问题或序列解码问题。比如授权公告号为CN103309960B的专利公开了一种网络舆情事件多维信息提取的方法及装置,其方法包括:基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;依据所述主题按照预设时间段分时获取特征网页;获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。
上述的方法虽然可以用以分析舆论事件,提高舆论事件分析的准确度,但是因为互联网上的金融文本层次多样,冗余信息多;目前的方法对于金融文本存在以下问题:1、不能过滤冗余信息,长度过长,无法有效利用预训练模型的优势;2、不能有效利用标签本身语义信息用于分类,从而导致目前的金融舆情细分方面检测方法的检测准确率较低。
发明内容
有鉴于此,本发明的目的是提供一种基于关键信息抽取的金融舆情细分方面检测方法,通过标签描述和片段句建立关键信息句抽取辅助模型,然后抽取关键信息句,构建预训练模型输入,从而有效提升金融舆情细分方面检测的准确率。
本发明通过以下技术手段解决上述技术问题:
一种基于关键信息抽取的金融舆情细分方面检测方法,包括以下步骤,
S1、对金融文本数据和金融舆情标签描述集合进行预处理;
S2、利用循环神经网络对金融文本片段句和金融舆情标签句进行编码,得到片段句表征;
S3、对金融文本片段句和金融舆情标签描述集合进行相似度表征,再进行分类训练,得到关键信息句抽取分类辅助模型;
S4、利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度,并选取标签关键句;
S5、构建标签关键句组合输入金融文本,进行细分舆情分类。
进一步,所述步骤S1中,在预处理时,对原数据集D的所有金融文本进行划分,将每条金融文本按照中文分隔符分割成句表示,并按连贯概率进行合并,获得最终的片段句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111425815.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置