[发明专利]话题挖掘方法及装置、存储介质、终端在审
申请号: | 201910577977.2 | 申请日: | 2019-06-28 |
公开(公告)号: | CN112231470A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 丁洁;陈成才 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34;G06F16/383;G06F16/33;G06F40/279 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张振军 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 挖掘 方法 装置 存储 介质 终端 | ||
1.一种话题挖掘方法,其特征在于,包括:
获取新闻语料,所述新闻语料包括针对预设主体的多个新闻文本;
对所述新闻语料进行话题分类,以得到多个话题以及各个话题下的新闻文本;
对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息;
对各个话题下的新闻文本进行信息抽取,以得到各个新闻文本的文摘信息;
将各个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。
2.根据权利要求1所述的话题挖掘方法,其特征在于,所述对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息包括:
分析确定每个话题下各个新闻文本的情感分类;
统计属于各个情感分类的新闻文本的数量。
3.根据权利要求1所述的话题挖掘方法,其特征在于,所述对各个话题下的新闻文本进行信息抽取包括:
确定各个话题下的新闻文本中具备依存关系的各个词语,以作为所述文摘信息。
4.根据权利要求3所述的话题挖掘方法,其特征在于,所述具备依存关系的各个词语包括如下至少一项:
主语、谓语、宾语、时间以及地点。
5.根据权利要求1所述的话题挖掘方法,其特征在于,所述对各个话题下的新闻文本进行信息抽取包括:
如果新闻文本包含长文本,则将所述长文本分割为多个短文本,所述长文本为字数大于第一预设值的文本,所述短文本为字数小于第二预设值的文本,所述第一预设值大于第二预设值;
至少对所述多个短文本进行信息抽取。
6.根据权利要求5所述的话题挖掘方法,其特征在于,所述至少对所述多个短文本进行信息抽取包括:
对所述多个短文本进行去重处理;
对去重后的短文本进行信息抽取。
7.根据权利要求1所述的话题挖掘方法,其特征在于,所述将各个话题下的统计特征信息与各个话题下各个新闻文本的文摘信息结合进行展示包括:将各个话题在多个时间节点下的统计特征信息按照时间顺序进行展示,所述统计特征信息是按照所述多个时间节点进行统计的;
将各个话题下各个新闻文本的文摘信息按照所述多个时间节点的时间顺序进行展示,其中,每个新闻文本具备时间节点。
8.根据权利要求7所述的话题挖掘方法,其特征在于,每个新闻文本具有情感分类,所述将各个话题下的统计特征信息与各个话题下各个新闻文本的文摘信息结合进行展示还包括:
在展示每个新闻文本的文摘信息时,一并展示所述新闻文本的情感分类。
9.根据权利要求1至8任一项所述的话题挖掘方法,其特征在于,所述统计特征信息选自新闻文本总数量、属于各个情感分类的新闻文本的数量、各个新闻文本下的评论数量以及各个新闻文本下的评论情感倾向。
10.一种话题挖掘装置,其特征在于,包括:
新闻预料获取模块,用以获取新闻语料,所述新闻语料包括针对预设主体的多个新闻文本;
话题分类模块,用以对所述新闻语料进行话题分类,以得到多个话题以及各个话题下的新闻文本;
统计分析模块,用以对各个话题下的新闻文本进行统计分析,以得到各个话题下的统计特征信息;
信息抽取模块,用以对各个话题下的新闻文本进行信息抽取,以得到各个新闻文本的文摘信息;
展示模块,用以将各个话题下的统计特征信息与各个新闻文本的文摘信息结合进行展示。
11.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至9中任一项所述话题挖掘方法的步骤。
12.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至9中任一项所述话题挖掘方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910577977.2/1.html,转载请声明来源钻瓜专利网。