[发明专利]一种面向特定领域的中文事件抽取方法有效
申请号: | 201810426812.0 | 申请日: | 2018-05-07 |
公开(公告)号: | CN108920447B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 赵忠华;李舟军;王昌宝;孙小宁;李欣;万欣欣 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京航空航天大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/284;G06F40/289 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种面向特定领域的中文事件抽取方法,包括:预处理:对原始数据信息去除冗余标签、分句、分词;字典构建:人工对大规模新闻语料分析,对特定领域常见角色总结,构建角色字典;对报道特定领域事件的常见句型进行总结,构建基于触发词的句型字典;句法分析:对给定的中文新闻报道语句,进行句法解析得到句法解析树;句型匹配:根据句型字典在句法树上进行句型匹配;事件要素抽取:根据角色字典在句法树上进行角色抽取,根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。本发明解决了大数据环境下快速获取中文新闻资讯信息的难题,通过自动化处理,用户根据自己输入关键词即可得到关键词相关的新闻事件,为信息获取提供极大便利。 | ||
搜索关键词: | 一种 面向 特定 领域 中文 事件 抽取 方法 | ||
【主权项】:
1.一种面向特定领域的中文事件抽取方法,其特征在于:该方法步骤具体如下:S1.预处理:中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料,预处理的工作为对爬虫获取到的数据进行初步处理,适应后续模块的处理;在预处理步骤中,对原始数据进行的操作包括:去除冗余标签,分句、分词、词性标注、去停用词、建索引;S2.字典构建:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;S3.句法分析:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;S4.句型匹配:根据步骤S2构建的句型模板字典在步骤S3得到的句法解析树上进行句型匹配;S5.事件要素抽取:根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取,根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京航空航天大学,未经国家计算机网络与信息安全管理中心;北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810426812.0/,转载请声明来源钻瓜专利网。