[发明专利]面向社交媒体文本的无监督的事件抽取和分类方法有效

专利信息
申请号: 201510733879.5 申请日: 2015-11-02
公开(公告)号: CN105389354B 公开(公告)日: 2018-08-21
发明(设计)人: 周德宇;张致恺;张炫 申请(专利权)人: 东南大学
主分类号: G06F17/30 分类号: G06F17/30;G06Q50/00
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 孟红梅
地址: 210096*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种面向社交媒体文本的基于EECB模型的无监督的事件抽取和分类方法,包括:社交媒体文本过滤;对过滤后的文本进行预处理;按照时间标记对文本进行分组;基于EECB模型确定各组中每条文本对应的事件;对各组中事件编号相同的事件元素进行后处理;事件合并;将每个事件的每个命名实体映射到语义类,基于EECB模型确定每个事件的事件类型。本发明方法相比面向新闻文本的方法可以获得社交网络中人们关注的事件信息,该方法相比面向社交媒体文本的有监督的方法更具有领域的普适性。并且本发明与现有的TwiCal系统相比,事件抽取及分类的准确率都更高。
搜索关键词: 面向 社交 媒体 文本 监督 事件 抽取 分类 方法
【主权项】:
1.一种面向社交媒体文本的无监督的事件抽取和分类方法,其特征在于,包括如下步骤:(1)对社交媒体文本进行过滤,排除与事件不相关的文本;(2)对过滤后的文本进行预处理,提取得到文本中的命名实体和候选关键词,所述命名实体包括非地点命名实体和地点命名实体;(3)按照文本对应的时间标记对文本进行分组;(4)基于EECB模型采用Gibbs采样方法对各组文本进行迭代学习,得到各组中每条文本对应的事件编号,每个事件编号对应于一个以三元组表示的事件,其中y表示非地点命名实体,l表示地点,k表示关键词;(5)对各组中事件编号相同的事件元素进行后处理,得到满足设定可信度的事件;(6)将时间标记d加入三元组,基于事件元素的相似性对事件进行合并;(7)将合并后得到的每个事件的每个命名实体映射到语义类,并基于EECB模型进行迭代学习,得到每个事件的事件类型;所述EECB模型的生成方法包括:(11)生成事件分布π~Dirichlet(α);(12)生成事件类型分布υ~Dirichlet(τ);(13)对于每个事件e∈{1,2,...,E},生成多项式分布θe~Dirichlet(β),ψe~Dirichlet(η),ωe~Dirichlet(λ);(14)对于每个事件类型t∈{1,2,…,C},生成多项式分布εt~Dirichlet(ρ),ζt~Dirichlet(δ);(15)对于每条社交媒体文本m,选择一个事件e~Multinomial(π),对于每个出现在m中的非地点命名实体、地点和关键词分别选择一个非地点命名实体y~Multinomial(θe)、一个地点l~Multinomial(ψe)和一个关键词k~Multinomial(ωe);(16)对于每个事件e,选择一个事件类型t~Multinomial(v),对于每个出现在事件e中的非地点命名实体和关键词,分别选择一个语义类y′~Multinomial(εt)和一个关键词k′~Multinomial(ζt);其中,α、β、η、λ、τ、ρ、δ是超参数,π为事件参数,θ为非地点命名实体参数,ψ为地点参数,ω和ζ为关键词参数,v为事件类型参数,ε为语义类参数,E为事件总数,C为事件类型总数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510733879.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top