[发明专利]一种针对Twitter文本事件抽取的方法在审
申请号: | 201610387008.7 | 申请日: | 2016-06-02 |
公开(公告)号: | CN106055658A | 公开(公告)日: | 2016-10-26 |
发明(设计)人: | 郭利翔;张鑫;丁兆云;李沛;王晖;邓经升;乔凤才;程佳军;沈大勇;曹建平 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 谈杰 |
地址: | 410073 湖南省长沙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种针对Twitter文本事件抽取的方法,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,数据去重处理和文本预处理;步骤三,事件消息识别联合要素抽取,包括基于触发词匹配的事件消息识别、时间表达式识别、基于词库的地名实体识别、基于词库的主体抽取、活动主题抽取。本发明利用基于规则的事件要素抽取的方法,针对每一个事件,标注其事件要素,主要为事件发生时间、地点、主体以及活动主题,可以更加准确地对采集到的推文进行事件抽取,实现事件的快速检测与发现。 | ||
搜索关键词: | 一种 针对 twitter 文本 事件 抽取 方法 | ||
【主权项】:
一种针对Twitter文本事件抽取的方法,其特征在于,主要包括以下步骤:步骤一,从Twitter平台上采集推文数据,并存入数据库;步骤二,文本数据预处理:(1)数据去重处理,把内容基本或完全一致的推文进行去重处理;(2)文本预处理,首先是切句处理,将文本处理为句子级;然后对句子进行中文分词,以满足后续分析需要;步骤三,事件消息识别联合要素抽取,包括:基于触发词匹配的事件消息识别,使用事件触发词对已采集的去重数据进行过滤,得到目标结果;时间表达式识别,利用时间正则表达式以及自定义时间词库作为文本特征,对推文进行时间要素抽取,如果存在时间信息,则认为推文确实为事件推文,反之则认为是垃圾信息,不再提取其他要素;基于词库的地名实体识别,构建地名词典,并加入命名实体识别工具,从事件推文内容中抽取地名,从而得到事件的位置信息;基于词库的主体抽取,构建人物、团体词典,将这些词典加入命名实体识别工具,完成事件主体的抽取;活动主题抽取,根据活动主题要素完成事件抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610387008.7/,转载请声明来源钻瓜专利网。
- 上一篇:钢铁冶炼用集尘转移装置
- 下一篇:一种造球机