[发明专利]基于新闻的事件演化关系自动提取方法及其系统有效
申请号: | 201510372236.2 | 申请日: | 2015-06-29 |
公开(公告)号: | CN104915446B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 蔡毅;黄东平;闵华清 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F17/27 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于新闻的演化关系自动提取方法,包括:新闻信息预处理、新闻导语提取、新闻事件时间提取、事件提取、事件关键词提取、事件演化关系分析;本发明还公开了一种新闻的演化关系自动提取系统,包括:新闻信息预处理模块、新闻导语提取模块、新闻事件时间提取模块、事件提取模块、事件关键词提取模块、演化关系分析。本发明可以使得提取出来的事件演化关系图更加合理、事件之间的关系更加清晰;具有解决了目前新闻演化分析领域的部分不足之处,使演化分析达到更好的效果,方便用户了解整个新闻话题的发展脉络等优点。 | ||
搜索关键词: | 演化关系 事件提取 新闻事件 新闻信息 自动提取 分析 关键词提取模块 预处理 时间提取模块 自动提取系统 关键词提取 预处理模块 时间提取 提取模块 新闻话题 清晰 | ||
【主权项】:
1.基于新闻的事件演化关系自动提取方法,其特征在于,包括:(1a)新闻信息预处理:将输入的新闻进行分词、词性标注和去除停顿词处理,并提取评论中的特征词,建立起新闻的结构化数据;(1b)新闻导语提取:新闻导语是在新闻的开头,用于表达新闻的中心思想的句子;(1c)新闻事件时间提取:新闻具有明显的时间性,每一则事件新闻都有确定的发生时间点或者时间段,提取出该新闻的发生的时间;(1d)事件提取:事件是谈论同一件事情的新闻集合,利用文本聚类的方法,将零散的新闻汇聚为确定个数的话题事件;(1e)事件关键词提取:提取每一个事件具有代表性的词语作为事件关键词,所述事件关键词用于区别其他事件,利用事件关键词提取出事件代表性新闻;(1f)事件演化关系分析:从协同依赖关系的角度、事件迁移关系的角度和时间距离的角度分析事件之间的关系,通过对分析出的事件之间的关系的线性结合,得到最终的演化关系图;在步骤(1f)中,所述事件演化关系分析包括以下步骤:(2a)协同依赖关系分析;利用特征词协同出现的概率来衡量事件间的关系度,即:协同依赖关系分析,利用特征词协同出现的概率来计算事件的协同依赖关系的协同依赖关系值;事件a和事件b的协同依赖关系值Cd(a,b)计算方法如下:其中,是事件a的特征向量,是指特征向量的长度,即:事件a中关键词的个数,fx是事件a的特征向量中第x个特征词;是事件b的特征向量,是事件b的特征向量的长度,即:事件b中关键词的个数,fy是特征向量的第y个特征词;I(fx,fy)是第x个特征词fx和第y个特征词fy的协同概率,I(fx,fy)的计算方法如下:其中,p(fx,fy)是第x个特征词fx和第y个特征词fy同时出现的概率,p(fx)和p(fy)分别表示第x个特征词fx出现的概率和第y个特征词fy出现的概率;通过计算所有事件之间的协同依赖关系值,得到协同依赖关系值矩阵Cd;(2b)事件迁移关系分析;采用事件迁移关系分析,衡量事件间的演化方向;事件迁移关系分析是指分析两个事件之间的迁移关系;用以下的公式衡量两个事件之间的迁移关系值Em(a,b):其中,是事件a的关键特征词向量,Nb是事件b中新闻的个数,是事件a中关键词出现在事件b中的第i则新闻的次数,wb,i是事件b中第i则新闻的权重系数;通过计算所有事件的关系度,得到事件间关系度矩阵Em;基于Cd和Em的结合,得到事件a和事件b之间的演化关系的分析方法如下:其中,Em(a,b)是事件a和事件b的迁移关系值,Cd(a,b)是事件a和事件b的协同依赖关系值,μ是协同依赖关系值的阈值,η是事件迁移关系值的阈值;当事件a和事件b的协同依赖关系值Cd(a,b)大于μ且是事件a和事件b的事件迁移关系值Em(a,b)大于η时,则事件a到事件b存在演化关系;(2c)时间距离关系分析;时间距离关系分析是衡量两个事件之间的时间差距,利用衡量两则新闻时间相似度的方法来衡量两个事件之间的时间差距,计算公式如下所示:其中,Td(a,b)是两个事件之间的时间差距,ta是事件a中新闻的时间,tb是事件b中新闻的时间,ta和tb都是以天为单位,tmax是所有事件两两之间的时间差距中最大的时间差距;θ表示调节参数;通过计算所有事件两两之间的时间差距,得到所有事件间的时间差距矩阵Td;(2d)构建基于新闻的事件演化关系图;通过协同依赖关系方面、事件迁移关系方面、时间距离方面的线性结合,得到两个事件之间总的关系度R(a,b):R(a,b)=l1×Cd(a,b)+l2×Em(a,b)+l3×Td(a,b),其中,l1、l2和l3分别表示协同依赖关系的权重值、事件间依赖度的权重值和时间距离的权重值,并满足l1+l2+l3=1,Cd(a,b)表示事件a和事件b的协同依赖关系值,Em(a,b)表示事件a和b的事件间依赖度,Td(a,b)表示事件a和b的时间差距,当事件a和事件b同时满足以下关系式时:则认为事件a到事件b存在演化关系;其中,μ是协同依赖关系的阈值,η是事件迁移关系值的阈值,ε是时间差距的阈值,λ是总关系度的阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510372236.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种网页埋点的方法及装置
- 下一篇:用于在通信系统中配置发送器均衡的技术