[发明专利]舆情摘要提取方法、装置、设备及计算机可读存储介质有效
申请号: | 201811469068.9 | 申请日: | 2018-12-03 |
公开(公告)号: | CN109582967B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 陈琢;江旻;郑少杰;付勇;易剑韬;范增虎 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/289 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;刘芳 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 舆情 摘要 提取 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种舆情摘要提取方法,其特征在于,所述舆情摘要提取方法包括以下步骤:
对舆情文档进行词过滤以提取核心词,其中,将所述舆情文档的词以预训练的词向量进行存储;
对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量;
生成每一关键词对应的词向量,并计算每一合并词向量分别与每一关键词对应的词向量之间的相似度;
基于所述相似度,对每一核心词对应的词团进行排序;
取前预设个数词团中的词作为所述关键词的摘要信息;
基于所述关键词的摘要信息,构建舆情文档的舆情摘要,其中,所述关键词用于从多角度刻画舆情摘要;
所述对舆情文档进行词过滤以提取核心词包括:
对所述舆情文档中所有的词进行聚类,得到第一词团集;
对所述第一词团集中词团进行过滤;
将保留下的词团保存为第二词团集,并将所述第二词团集中所有词团的词作为核心词;
在所述对舆情文档进行词过滤以提取核心词的步骤之前,还包括:
采用主题模型算法对多个舆情文档进行主题聚类,得到每份舆情文档的多个主题关键词;
所述对所述第一词团集中词团进行过滤包括:
以所有舆情文档的所有主题关键词为过滤条件,判断所述第一词团集中词团是否包含所有舆情文档的所有主题关键词;
若是,则保留该词团,否则过滤该词团;
在所述对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量的步骤之前,还包括:
分别计算每一个核心词在所有舆情文档中的TF-IDF值;
将每一个核心词的TF-IDF值分别与每一个核心词对应的多种类型词向量进行乘法加权;
所述对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量包括:
对乘法加权后的每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量;
所述计算每一合并词向量分别与每一关键词对应的词向量之间的相似度包括:
计算每一合并词向量分别与每一关键词对应的词向量之间的余弦相似度;
所述基于所述相似度,对每一核心词对应的词团进行排序包括:
基于所述余弦相似度,对每一核心词对应的词团进行排序。
2.如权利要求1所述的舆情摘要提取方法,其特征在于,在所述基于所述相似度,对每一核心词对应的词团进行排序的步骤之后,还包括:
若摘要信息需要以句子形式进行表示,则取前预设个数词团中的词所在舆情文档中的段落作为所述关键词的摘要信息。
3.如权利要求1所述的舆情摘要提取方法,其特征在于,在生成每份舆情文档中每一个词对应的多种类型词向量的步骤之前,还包括:
自定义舆情摘要的多个关键词组合,其中,一个关键词组合对应舆情摘要的一个刻画角度,且各刻画角度之间相互独立;一个关键词组合包含多个关键词,同一关键词组合中各关键词之间相互互斥。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811469068.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息匹配方法及装置
- 下一篇:一种语料中的关键信息的提取方法及装置