[发明专利]一种事件抽取判断方法及系统在审
申请号: | 202110612736.4 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113792083A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 于兴文 | 申请(专利权)人: | 的卢技术有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F40/211;G06F40/295;G06F40/30;G06F16/35 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 李鑫 |
地址: | 210000 江苏省南京市经济*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事件 抽取 判断 方法 系统 | ||
本发明公开了一种事件抽取判断方法与系统,涉及信息处理领域,其技术要点是,包括以下步骤:获取自然语料,对所述自然语料进行预处理,以获得目标语料;基于目标语料,运用算法库分别对其进行事件类型判断,以分别获得多组目标类型结果;基于所述多组目标类型结果,输出最优类型结果;基于命名实体识别与模式匹配算法,提取目标语料的目标事件元素,并对目标事件元素进行判别;基于最优类型结果与目标事件元素的对应关系,输出事件抽取结果。通过算法库在事件类型抽取上具有更高的精度。同时,通过两阶段式的召回精筛提升事件元素抽取的准确率,提升了整个事件抽取任务在具体业务场景下的算法精度。
技术领域
本发明涉及信息处理领域,具体为一种事件抽取判断方法及系统。
背景技术
随着互联网的高速发展,越来越多的信息以电子文本的形式呈现给用户。 为了帮助用户在海量信息中快速找到所需要的信息,提出了信息抽取的概念。 信息抽取是指从自然语言文本中抽取事实信息,并且以结构化的形式描述信 息。事件抽取是信息抽取中的一个重要研究方向,主要是指从含有事件信息 的文本数据中抽取出感兴趣的事件信息,并且将用自然语言表达事件以结构 化的形式呈现,比如,什么人、什么地方、什么时间、做了什么事,可见, 事件抽取在现今的海量信息时代具有极为广阔的应用前景。
事件抽取是从描述事件信息的文本中抽取出用户感兴趣的事件并以结 构化的形式呈现出来,这样便能从海量的自然文本中抽取事件,目前市场上 聊天软件有很多,如日常交流常用的QQ、微信;工作中较长使用的叮叮。无 论工作还是学习,聊天软件都是当前人比不可少的网络工具。
聊天软件的用户间普遍采用自然语言作为交流手段,聊天的自然语言中 常常包含许多事件信息。这里所指的事件具体包括事件类型、事件元素两种 属性,其中事件元素根据事件类型的不同往往内容不同,不过大体包含时间、 地点、人物等字段。
目前,在聊天软件中的对于自然语言的事件抽取技术往往涉及到两个方 面,对事件类型的判断与事件元素的抽取。现有的事件抽取的方法有基于模 式匹配和基于机器学习的方法。其中专业领域的模式匹配需要定义大量的模 板进行事件的识别和抽取;基于传统机器学习的方法一般将事件抽取问题转 化为分类问题,基于短语或者句子层级的信息。通过对文本信息进行分句、 分词、实体识别、句法和依存关系,利用自然语言处理的工具提取候选词的 上下文的词义特征和语义特征,并构建特征向量,作为分类器的输入,运用 一个分类器来预测事件发生的触发词,并根据触发词类型,判断该事件所属 类型。
基于模式匹配的事件抽取方法,基于一定的模式(上下文环境),将待抽取 的句子与已有的模板进行匹配,其中模式的构建需要领域的专家知识,进行 人工建立,人力、时间成本较高,并且移植性较差,从一个领域移植到另一 个领域相当于重新建立;基于机器学习的事件抽取的方法,一是将事件抽取 分为实体提取和事件判别两个阶段,命名实体识别的误差会影响事件的判别, 会带来累计误差;二是对于具体的领域,往往需要构建大量的人工特征,特 征选择的过程代价是很大的,随着模型复杂性的提高,可维护性会变得越来越差。
发明内容
本发明的目的在于提供一种事件抽取判断方法与系统,以至少解决由于 模板本身灵活性差、形式复杂的特点,往往使事件抽取存在一定的误检率的 问题。
为实现上述目的,本发明提供如下技术方案:一种事件抽取判断方法, 包括以下步骤:
获取自然语料,对所述自然语料进行预处理,以获得目标语料;
基于目标语料,运用算法库分别对其进行事件类型判断,以分别获得多 组目标类型结果;
基于所述多组目标类型结果,输出最优类型结果;
基于命名实体识别与模式匹配算法,提取目标语料的目标事件元素,并 对目标事件元素进行判别;
基于最优类型结果与目标事件元素的对应关系,输出事件抽取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于的卢技术有限公司,未经的卢技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110612736.4/2.html,转载请声明来源钻瓜专利网。