[发明专利]文本事件的获取方法、装置、电子设备及存储介质有效
申请号: | 202010350403.4 | 申请日: | 2020-04-28 |
公开(公告)号: | CN111597302B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 岳重阳;冯少辉;李鹏 | 申请(专利权)人: | 北京中科智加科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295;G06F40/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 马瑞 |
地址: | 100083 北京市海淀区学院路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 事件 获取 方法 装置 电子设备 存储 介质 | ||
本发明提供了一种文本事件的获取方法、装置、电子设备及存储介质。其中,文本事件的获取方法包括:对文本进行分词和标注处理,以得到对应于文本的多个分词,其中,每个分词对应一个标记;根据分词的标记,从多个分词中获取与预设的DSL序列中多个要素属性相关联的多个目标分词,DSL序列包括多个事件要素配置项,事件要素配置项包括要素属性;根据多个目标分词得到文本事件。本发明的文本事件的获取方法,根据需要从文本中所需得到的信息,建立定制的领域特定语言,进而,可以根据该领域特定语言从文本中获取到所需的要素,以快速准确地得到文本事件,具有简化人工操作、文本事件获取速度快、获取准确性高的优点,提升文本事件的获取体验。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种文本事件的获取方法、装置、电子设备及存储介质。
背景技术
事件抽取是从文本中获取出所需的事件要素信息,例如:对于文本:“2020年1月1日,张三赴北京与李四进行了会面。”,获取出的文本事件要素可以包括2020年1月1日、张三、北京、李四、会面等。
相关技术中,事件抽取方式包括基于模式匹配的方式和基于序列标注的方式。基于模式匹配的方式借助规则模板,来对文本中与事件密切相关的句式进行匹配,缺点则是规则的定制和维护属于劳动密集型工作,人工的执行效率有待提升。基于序列标注的方式是事先对大量数据进行人工标注,然后使用机器学习或深度学习算法来学习文本序列与标注之间的对应关系,以此实现对文本序列对应标注的预测,需要人工进行大量的数据标注,同样影响其工作效率,另外,模型的训练也费事费力。
发明内容
基于现有技术中存在的问题,本发明提出一种文本事件的获取方法、装置、电子设备及存储介质。
第一方面,本发明提供了一种文本事件的获取方法,包括:对文本进行分词和标注处理,以得到对应于所述文本的多个分词,其中,每个分词对应一个标记;根据分词的标记,从所述多个分词中获取与预设的DSL序列中多个要素属性相关联的多个目标分词,其中,所述DSL序列包括多个事件要素配置项,所述事件要素配置项包括所述要素属性;根据所述多个目标分词得到所述文本事件。
本发明的文本事件的获取方法,根据需要从文本中所需得到的信息,建立定制的领域特定语言,进而,便可以根据该领域特定语言从文本中获取到所需的要素,以快速准确地得到文本事件,具有简化人工操作、文本事件获取速度快、获取准确性高的优点,提升文本事件的获取体验。
在一些示例中,还包括:根据所需获取的事件要素创建所述DSL序列。
在一些示例中,所述根据所需获取的事件要素创建所述DSL序列,包括:根据所需获取的事件要素,确定所述DSL序列的事件类型配置项和所述多个事件要素配置项,其中,所述事件要素配置项还包括分别对应于所述多个要素属性的要素名称;应用预设的DSL语法规则,根据所述事件类型配置项和所述多个事件要素配置项创建所述DSL序列。
在一些示例中,所述根据分词的标记,从所述多个分词中获取与预设的DSL序列中多个要素属性相关联的多个目标分词,包括:根据所述DSL序列的多个事件要素配置项,得到一一对应于所述多个事件要素配置项的多个要素抽取任务;根据所述多个要素抽取任务中当前执行的要素抽取任务,依次遍历所述多个分词,以根据分词的标记,从所述多个分词中获取与所述当前执行的要素抽取任务相关联的目标分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科智加科技有限公司,未经北京中科智加科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010350403.4/2.html,转载请声明来源钻瓜专利网。