[发明专利]基于案件要素及BiGRU的涉案舆情新闻文本摘要方法有效
申请号: | 201910680097.8 | 申请日: | 2019-07-26 |
公开(公告)号: | CN110489541B | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 余正涛;韩鹏宇;黄于欣;高盛祥;郭军军;王振晗 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F16/951 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 案件 要素 bigru 涉案 舆情 新闻 文本 摘要 方法 | ||
1.基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:
所述基于案件要素及BiGRU的涉案舆情新闻文本摘要方法的具体步骤如下:
Step1、涉案舆情新闻文本的获取;
Step2、对训练数据进行标记;
Step3、案件要素构建;
Step4、文本特征表示;通过使用词、句子双层循环门控神经网络BiGRU将句子和文本编码成向量,得到句子和文本的向量表示,来提取文本特征;
Step5、使用注意力机制将案件要素融入词、句子编码层得到带有案件要素注意力的句子向量和文本向量;
Step6、使用句子的隐层向量、句子位置信息、句子显著性信息、句子新颖度信息输入到softmax分类层来对句子进行分类,获得最终的分类结果;
其中,通过融合案件要素信息的当前文本的第i个句子的隐层向量hi和文本向量表示d求得句子显著性信息;
使用融合案件要素信息的当前文本的第i个句子的隐层向量hi和之前句子的隐层向量的加权和sj计算得到当前句子和前文的重复信息,当前句子和前文的重复信息经过tanh的激活变化后与计算后取负值后得到当前句子的新颖度信息。
2.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:所述步骤Step1中,采用基于Scrapy框架的爬虫从互联网上搜集相关新闻,并进行人工校对处理,构建涉案舆情新闻文本数据集。
3.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:所述步骤Step2中,具体包括:
对比每一个句子和摘要句的ROUGE值,采用一种贪婪搜索的方法来寻找最优组合,以此来标记句子是否为摘要句,从而形成训练数据语料。
4.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:所述步骤Step3中,具体包括:
把“案件名,案发地,涉案人员,案件描述,关键词”作为案件要素,其中关键词是采用TextRank方法从新闻文本中抽取出来的5个关键词,用于表征不同新闻文本所具有的不同的主题信息。
5.根据权利要求1所述的基于案件要素及BiGRU的涉案舆情新闻文本摘要方法,其特征在于:所述步骤Step4中:
Step4.1、编码层的输入是一篇含有l个句子的文本d={s1,...si,...sl},其中si表示文本中第i个句子,每个句子由m个词组成s={w1,...wi,...wm};其中wi表示句子s中第i个词;
Step4.2、在词编码层,将句子中每一个词的词向量按顺序送入一个由BiGRU单元构成的神经网络,得到词的隐层向量是句子中第i个词的隐层向量表示;这一阶段的每个步骤中,前向GRU基于当前输入wi和先前隐层向量表示计算当前的前向隐层向量还从wm到w1反向运行第二个GRU来生成后向隐层向量表示如公式(1)(2)所示:
Step4.3、最后,通过拼接前向隐层向量和后向隐层向量得到句子si的新表示
Step4.4、相似的,文本中每一个句子的表示,又作为句子编码器的输入;句子编码器同样采用一个BiGRU结构的神经网络,每一个GRU单元输入的是当前句子编码和上一GRU单元句子的隐层表示拼接双向句子隐层向量后最终得到文本的编码向量d':
其中,Wd和bd是参数,l是文本中句子数;
通过词、句子双层编码器能得到句子和文本的向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910680097.8/1.html,转载请声明来源钻瓜专利网。
- 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法
- 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置
- 一种基于ERNIE-BiGRU的中文文本分类方法
- 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质
- 一种基于BiGRU的智能电表计量模块故障预测与诊断方法
- 基于边缘注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质
- 一种预测化合物蛋白质亲和力的新型深度学习模型、计算机设备、存储介质
- 基于单独注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质
- 一种基于ATAE-BiGRU的文本方面情感分类方法及系统
- 一种基于自注意力机制和BiGRU的文本分类方法