[发明专利]面向社交媒体文本的无监督的事件抽取和分类方法有效
申请号: | 201510733879.5 | 申请日: | 2015-11-02 |
公开(公告)号: | CN105389354B | 公开(公告)日: | 2018-08-21 |
发明(设计)人: | 周德宇;张致恺;张炫 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 孟红梅 |
地址: | 210096*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向社交媒体文本的基于EECB模型的无监督的事件抽取和分类方法,包括:社交媒体文本过滤;对过滤后的文本进行预处理;按照时间标记对文本进行分组;基于EECB模型确定各组中每条文本对应的事件;对各组中事件编号相同的事件元素进行后处理;事件合并;将每个事件的每个命名实体映射到语义类,基于EECB模型确定每个事件的事件类型。本发明方法相比面向新闻文本的方法可以获得社交网络中人们关注的事件信息,该方法相比面向社交媒体文本的有监督的方法更具有领域的普适性。并且本发明与现有的TwiCal系统相比,事件抽取及分类的准确率都更高。 | ||
搜索关键词: | 面向 社交 媒体 文本 监督 事件 抽取 分类 方法 | ||
【主权项】:
1.一种面向社交媒体文本的无监督的事件抽取和分类方法,其特征在于,包括如下步骤:(1)对社交媒体文本进行过滤,排除与事件不相关的文本;(2)对过滤后的文本进行预处理,提取得到文本中的命名实体和候选关键词,所述命名实体包括非地点命名实体和地点命名实体;(3)按照文本对应的时间标记对文本进行分组;(4)基于EECB模型采用Gibbs采样方法对各组文本进行迭代学习,得到各组中每条文本对应的事件编号,每个事件编号对应于一个以三元组表示的事件,其中y表示非地点命名实体,l表示地点,k表示关键词;(5)对各组中事件编号相同的事件元素进行后处理,得到满足设定可信度的事件;(6)将时间标记d加入三元组,基于事件元素的相似性对事件进行合并;(7)将合并后得到的每个事件的每个命名实体映射到语义类,并基于EECB模型进行迭代学习,得到每个事件的事件类型;所述EECB模型的生成方法包括:(11)生成事件分布π~Dirichlet(α);(12)生成事件类型分布υ~Dirichlet(τ);(13)对于每个事件e∈{1,2,...,E},生成多项式分布θe~Dirichlet(β),ψe~Dirichlet(η),ωe~Dirichlet(λ);(14)对于每个事件类型t∈{1,2,…,C},生成多项式分布εt~Dirichlet(ρ),ζt~Dirichlet(δ);(15)对于每条社交媒体文本m,选择一个事件e~Multinomial(π),对于每个出现在m中的非地点命名实体、地点和关键词分别选择一个非地点命名实体y~Multinomial(θe)、一个地点l~Multinomial(ψe)和一个关键词k~Multinomial(ωe);(16)对于每个事件e,选择一个事件类型t~Multinomial(v),对于每个出现在事件e中的非地点命名实体和关键词,分别选择一个语义类y′~Multinomial(εt)和一个关键词k′~Multinomial(ζt);其中,α、β、η、λ、τ、ρ、δ是超参数,π为事件参数,θ为非地点命名实体参数,ψ为地点参数,ω和ζ为关键词参数,v为事件类型参数,ε为语义类参数,E为事件总数,C为事件类型总数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510733879.5/,转载请声明来源钻瓜专利网。
- 上一篇:发光二极管及其制作方法
- 下一篇:基于物联网的地震应急防灾方法及系统