[发明专利]事件提取方法及装置、电子设备、存储介质有效
申请号: | 202011643985.1 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112699677B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 李雪婷;简仁贤;吴文杰;刘影 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/211 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 董艳芳 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 提取 方法 装置 电子设备 存储 介质 | ||
本申请提供一种事件提取方法及装置、电子设备、存储介质,该方法包括:对待处理句子进行分词、词性标注以及依存句法分析,生成待处理句子中每个词语的词性标签以及不同词语之间的依存关系标签;根据待处理句子中每个词语的词性标签,找出待处理句子的事件触发词;根据待处理句子中不同词语之间的依存关系标签以及待处理句子中已知的带有事件要素标签的关键词,确定事件触发词对应的事件要素词;将事件触发词与事件要素词组合输出,得到待处理句子的事件提取结果。该方案从语义层面提取事件,无需设置模板,可以适用于不同文本的事件提取,方案适用范围广。
技术领域
本申请涉及文本处理方法,特别涉及一种事件提取方法及装置、电子设备、存储介质。
背景技术
互联网中存在大量的文本,由于自然语言的多样性,这些文本中可能包含较多的用户不感兴趣的无效信息。为了从这些文本中获取用户感兴趣的信息,可以对这些文本进行事件抽取,以分析这些文本各自表示的事件。事件提取是自然语言理解领域常使用且关注度很高的模块。
示例性的,可以针对不同类型的事件设置不同的模板,每个模板用于表示构成该事件的事件要素以及事件的组织规则。提取待处理文本中的实体,作为事件要素,并将待处理文本的事件要素与模板进行匹配,以确定与待处理文本的事件要素相匹配的模板,按照该模板所表示的组织规则,将待处理文本的事件要素组织成事件。
但是,模板的类型有限,可能存在无法与模板匹配的文本,该方案无法抽取这些文本中的事件,即适用性较差。
发明内容
本申请实施例提供了一种事件提取方法,无需设置模板,可以适用多种文本的事件提取。
本申请实施例提供了一种事件提取方法,所述方法包括:
对待处理句子进行分词、词性标注以及依存句法分析,生成所述待处理句子中每个词语的词性标签以及不同词语之间的依存关系标签;
根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词;
根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,确定所述事件触发词对应的事件要素词;
将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果。
在一实施例中,在所述对待处理句子进行分词、词性标注以及依存句法分析之前,所述方法还包括:
获取待处理文本;
根据断句标志对待处理文本进行断句,得到多个所述待处理句子。
在一实施例中,所述根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词,包括:
针对所述待处理句子中的每个词语,若所述词语的词性标签为动词或动名词,判断所述词语是否属于已知的非触发动词;
若所述词语不属于已知的非触发动词,根据不同词语之间的依存关系标签,判断所述词语是否带有状中关系标签,若不是,将所述词语标记为事件触发词。
在一实施例中,所述根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词,包括:
针对所述待处理句子中的每个词语,若所述词语的词性标签为形容词,判断所述词语是否在已知的形容词库中;
若所述词语在所述形容词库中,将所述词语标记为事件触发词。
在一实施例中,所述根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词,包括:
针对所述待处理句子中的每个词语,若所述词语的词性标签为名词,判断所述词语是否在已知的事件专有名词库中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011643985.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种白色氧化锆陶瓷
- 下一篇:一种用于盆栽试验水分控制的机械定量补水系统