[发明专利]一种新闻专题事件发现的方法有效
申请号: | 201910414328.0 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110162632B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 高体伟;苏海波;王然;孙伟;王勋;刘钰 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205;G06F40/289 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘昕;南霆 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种新闻专题事件发现的方法,主要包括:S1、对每篇给定的新闻文章进行事件主题句识别;S2、对每篇给定的新闻文章进行事件核心元素抽取;S3、利用步骤S2中提取的每篇新闻文章的事件核心元素判别文章相似性。本发明方法基于事件元素抽取(Event extraction)技术、话题追踪检测(Topic Detection and Tracking)、事件关系发现及专题新闻增量追加技术,来实现新闻文本的专题事件发现和聚类,实现新闻文本的基于话题进行专题聚类和发现的方法,使用者无需提供标注训练数据,也无需提供事件类型模板,无需了解相关领域知识,即可实现高质量的专题聚类和事件发现。 | ||
搜索关键词: | 一种 新闻 专题 事件 发现 方法 | ||
【主权项】:
1.一种新闻专题事件发现的方法,其特征在于,包括如下步骤:S1、对给定的所有新闻文章进行事件主题句识别:按下式计算新闻文章中各个句子的事件主题句得分:其中,对于新闻文章中的标题,其句子所在位置取值为1,对于正文中的句子,其句子所在位置取值为i+1,i表示句子是正文中的第i句话;根据计算得到新闻文章中各个句子的事件主题句得分,将各个句子进行降序排列,并选取前一个或多个句子作为该新闻文章的事件主题句;S2、对给定的所有新闻文章进行事件核心元素的抽取;对步骤S1中识别得到的新闻文章的事件主题句,按下式计算事件主题句中的每一个词语的事件核心元素得分:其中,Kword为词语作为事件核心元素的得分;TF(word)为词语的TF值,即频率;Tscore(sentence)为词语所在的事件主题句的事件主题句得分;distance(word)为词语与距之最近的触发词之间的距离;根据计算得到的事件主题句中的每一个词语的事件核心元素得分对词语进行降序排序,然后选取前k个词语作为该新闻文章的事件核心元素;S3、利用步骤S2中提取的每篇新闻文章的事件核心元素,判别每篇新闻文章之间的相似性,并据此对给定的所有新闻文章进行专题聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910414328.0/,转载请声明来源钻瓜专利网。