[发明专利]一种新闻专题事件发现的方法有效
申请号: | 201910414328.0 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110162632B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 高体伟;苏海波;王然;孙伟;王勋;刘钰 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205;G06F40/289 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘昕;南霆 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 专题 事件 发现 方法 | ||
1.一种新闻专题事件发现的方法,其特征在于,包括如下步骤:
S1、对给定的所有新闻文章进行事件主题句识别:
按下式计算新闻文章中各个句子的事件主题句得分:
其中,对于新闻文章中的标题,其句子所在位置取值为1,对于正文中的句子,其句子所在位置取值为i+1,i表示句子是正文中的第i句话;
根据计算得到新闻文章中各个句子的事件主题句得分,将各个句子进行降序排列,并选取前一个或多个句子作为该新闻文章的事件主题句;
S2、对给定的所有新闻文章进行事件核心元素的抽取;
对步骤S1中识别得到的新闻文章的事件主题句,按下式计算事件主题句中的每一个词语的事件核心元素得分:
其中,Kword为词语作为事件核心元素的得分;TF(word)为词语的TF值,即频率;Tscore(sentence)为词语所在的事件主题句的事件主题句得分;distance(word)为词语与距之最近的触发词之间的距离;
根据计算得到的事件主题句中的每一个词语的事件核心元素得分对词语进行降序排序,然后选取前k个词语作为该新闻文章的事件核心元素;
S3、利用步骤S2中提取的每篇新闻文章的事件核心元素,判别每篇新闻文章之间的相似性,并据此对给定的所有新闻文章进行专题聚类。
2.根据权利要求1所述的新闻专题事件发现的方法,其特征在于,步骤S3的具体过程为:
S3.1、将每篇新闻文章的事件核心元素作为该篇新闻文章的主题词;
S3.2、建立每个主题词和每篇新闻文章的索引关系以及每篇新闻文章和每个主题词的索引关系;
S3.3、对所有新闻文章进行遍历,通过步骤S3.2建立的两个索引关系,将每篇新闻文章的主题词所对应的其他新闻文章,构建成该篇新闻文章潜在的相似文章集合;
S3.4、在每个潜在的相似文章集合中进行新闻文章的相似度的比较:
S3.4.1、对当前新闻文章与其他所有未归入任一专题下的新闻文章进行相似度对比,当同时满足如下两个条件时认定两篇新闻文章是同一专题下的相似新闻文章,同时这两篇新闻文章不再属于其他专题:
1)两篇新闻文章中相同的主题词的个数大于阈值α;
2)当前新闻文章与所对比的新闻文章相比,词语重复率大于阈值β;
如果当前新闻文章与潜在的相似文章集合中的任意一篇新闻文章均不属于相同的专题,则独自归入一个专题下,同时不再属于其他专题;
S3.4.2、判断集合中是否还有未归入任一专题下的新闻文章,如果有,则将其中一篇作为当前新闻文章并返回步骤S3.4.1,否则结束比较;
由此完成了给定的所有新闻文章的专题聚类。
3.根据权利要求1所述的新闻专题事件发现的方法,其特征在于,步骤S1中,根据计算得到新闻文章中各个句子的事件主题句得分,将各个句子进行降序排列,并选取得分最高的一个句子作为该新闻文章的事件主题句。
4.根据权利要求1所述的新闻专题事件发现的方法,其特征在于,还包括有S4、当增量新闻数据时,对于增量新闻数据中的新闻文章,采用步骤S1-S3的方法进行专题聚类,形成一个或多个当前专题,并对历史专题与当前专题的事件关系进行识别,识别的过程具体为:
S4.1、提取当前专题和历史专题中每个专题的事件核心元素:
对一个专题下的所有新闻文章的事件核心元素,计算每个事件核心元素在该专题下的所有新闻文章的事件核心元素中出现的频率,选取频率最高的前j个事件核心元素作为该专题的专题主题词;
S4.2、建立每个专题主题词和每个专题的索引关系以及每个专题和每个专题主题词的索引关系;
S4.3、对所有专题进行遍历,通过步骤S4.2建立的两个索引关系,将每个专题的专题主题词所对应的其他专题,构建成该专题潜在的相似专题集合;
S4.4、在每个潜在的相似专题集合中进行专题的相似度的比较:
S4.1.1、将待比较的当前专题和所述历史专题进行比较,当同时满足如下两个条件时认定两个专题是同一专题,同时该待比较的当前专题不再属于其他专题:
1)两个专题中相同的专题主题词的个数大于阈值α;
2)待比较的当前专题与所对比的历史专题相比,词语重复率大于阈值β;
如果待比较的当前专题不与任一历史专题属于同一专题,则认定该当前专题为新增专题并划入历史专题库中;
S4.1.2、判断潜在的相似专题集合中是否还有未划入历史专题库中的当前专题,如果有,则将其中一个当前专题作为待比较的当前专题并返回步骤S4.1.1,否则结束比较。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910414328.0/1.html,转载请声明来源钻瓜专利网。