[发明专利]一种跨媒体的事件抽取方法有效
申请号: | 201610809600.1 | 申请日: | 2016-09-08 |
公开(公告)号: | CN106484767B | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 尹芷仪;薛聪;向继;查达仁;王雷 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06Q50/00;G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种跨媒体的事件抽取方法。本方法为:设置种子事件特征库及所需的知识数据;从可信新闻源中采集新闻网页,并提取新闻文本及元数据信息;从每则新闻文本中抽取事件要素信息,生成一初始事件集合;计算初始事件各要素在事件刻画中的重要程度,生成事件初始概要框架;基于事件初始概要框架中的各要素搜索社交网络消息文本,生成候选消息集合;根据候选消息的概要框架与事件概要框架的相似度对候选消息进行过滤,得到初始事件对应的消息队列;将事件初始概要框架中的事件要素和消息队列中存在而初始概要框架中不存在的事件要素生成完备事件数据。本发明能够在海量跨媒体数据环境中实现重大事件的精确抽取。 | ||
搜索关键词: | 一种 媒体 事件 抽取 方法 | ||
【主权项】:
1.一种跨媒体的事件抽取方法,其步骤为:1)设置种子事件特征库及所需的知识数据;2)从设定的可信新闻源中采集新闻网页,并从采集的新闻网页中提取新闻文本及元数据信息;3)根据所述种子事件特征库及所需的知识数据从每则新闻文本中抽取事件要素信息,生成初始事件数据,得到一初始事件集合;4)计算初始事件各要素在事件刻画中的重要程度,生成事件的初始概要框架;其中,所述事件的初始概要框架为P(e)={((ki,vi),ωi(e,(ki,vi)))|(ki,vi)∈E,ωi(e,(ki,vi))∈[0,1]};E表示事件e所有要素分量的键值对集合,ki是第i个要素分量的名称,vi为分量对应取值,ωi为第i个键值对(ki,vi)的重要程度;5)基于事件的初始概要框架中的各要素搜索社交网络消息文本,生成候选消息集合;6)结合文本语义分析方法,分析候选消息集合中所包含的要素信息及所属分类,生成每一候选消息的概要框架;7)根据候选消息的概要框架与所述事件的初始概要框架的相似度对候选消息进行过滤,得到初始事件对应的消息队列;8)将所述事件的初始概要框架中的事件要素和消息队列中存在而事件初始概要框架中不存在的事件要素加入到一候选事件要素集合;9)根据候选事件要素集合中的事件要素生成完备事件数据;其中,生成候选消息的概要框架的方法为:a)提取候选消息元数据中的图片元数据或用户地理位置信息,得到候选消息对应的地理坐标信息;b)对候选消息进行命名实体识别和浅层语义分析,定位每条候选消息的实体信息和语义角色;c)根据所述知识数据对候选消息的实体信息进行映射,得到该候选消息中包含的键值对信息;d)对步骤c)得到的键值对信息进行分类识别或聚类,建立所属类别和关键词的关联,得到该候选消息的若干组键值对,并评估该候选消息的重要程度;e)根据候选消息的键值对及其重要程度信息,形成该候选消息的概要框架。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610809600.1/,转载请声明来源钻瓜专利网。