[发明专利]一种事件抽取方法及装置有效
申请号: | 201910854965.X | 申请日: | 2019-09-10 |
公开(公告)号: | CN110555440B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 朱勤佳 | 申请(专利权)人: | 杭州橙鹰数据技术有限公司 |
主分类号: | G06V30/10 | 分类号: | G06V30/10;G06F40/289 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事件 抽取 方法 装置 | ||
1.一种事件抽取方法,其特征在于,包括:
获取待处理文本;
对所述待处理文本进行主题识别,获取预先存储的对应的事件模板;
对所述待处理文本进行文本识别,获取对应的第一结合信息,其中,所述第一结合信息包括所述待处理文本对应的全文参考信息;
对所述待处理文本进行分句处理,获取对应的第二结合信息,其中,第二结合信息包括句子和句子级论元;
对所述待处理文本进行分段处理,获取对应的第三结合信息,其中,第三结合信息包括段落和段落级论元;
根据所述事件模板对所述句子级论元和所述段落级论元进行抽取,获取所述待处理文本对应的篇章级论元,根据所述全文参考信息对所述句子级论元、所述段落级论元和所述篇章级论元进行归类,获取所述待处理文本对应的核心论元集合。
2.如权利要求1所述的事件抽取方法,其特征在于,
对所述待处理文本进行主题识别,获取预先存储的对应的事件模板包括:
对所述待处理文本进行主题识别,获取待处理文本的主题类别;
根据所述主题类别选择与所述主题类别相对应的事件模板,其中,所述事件模板包括基于文本和与所述文本对应的事件框架信息相应配置的抽取规则。
3.如权利要求1所述的事件抽取方法,其特征在于,
对所述待处理文本进行分句处理,获取对应的第二结合信息包括:
对所述待处理文本进行分句处理,获取对应的句子集合;
获取所述句子集合中包含事件触发词的目标句子,所述事件触发词预先存储在触发词集合中;
将所述目标句子输入到预先训练的识别模型中,所述识别模型被训练于根据输入的句子提取句子级论元;
所述识别模型响应于输入的所述目标句子生成与所述目标句子对应的句子级论元,目标句子与所述目标句子对应的句子级论元组成第二结合信息单元;
获取由至少一个第二结合信息单元组成的第二结合信息。
4.如权利要求3所述的事件抽取方法,其特征在于,
所述识别模型经以下步骤训练生成,包括:
获取样本数据以及每个样本数据对应的样本标签,所述样本数据为句子,所述样本标签为句子对应的句子级论元;
生成识别模型,所述识别模型使所述样本数据与所述样本标签相关;
储存所述识别模型。
5.如权利要求1所述的事件抽取方法,其特征在于,
对所述待处理文本进行分段处理,获取对应的第三结合信息包括:
对所述待处理文本进行分段处理,获取对应的段落集合;
根据所述段落集合、所述第二结合信息和所述事件模板对所述段落集合中的目标段落进行事件抽取,获取对应的段落级论元,所述目标段落与对应的段落级论元组成第三结合信息单元;
获取由至少一个第三结合信息单元组成的第三结合信息。
6.如权利要求1所述的事件抽取方法,其特征在于,还包括:
对所述核心论元集合中有相同词义的目标论元做归一识别,获取待存储论元集合;
为所述待存储论元集合中的论元与预先存储的数据库中的论元建立链接关系,所述数据库用以存储论元及论元属性;
将所述待存储论元集合进行存储。
7.如权利要求6所述的事件抽取方法,其特征在于,
对所述核心论元集合中有相同词义的目标论元做归一识别,获取待存储论元集合包括:
对所述核心论元集合中标识时间信息的论元做归一识别,获取所述论元的时间归一词条;
对所述核心论元集合中标识地域信息的论元做归一识别,获取所述论元的地域归一词条。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州橙鹰数据技术有限公司,未经杭州橙鹰数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910854965.X/1.html,转载请声明来源钻瓜专利网。