[发明专利]一种复合实体提取方法及系统有效
申请号: | 202010484708.4 | 申请日: | 2020-06-01 |
公开(公告)号: | CN111639499B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 朱江平;王丙栋;游世学 | 申请(专利权)人: | 北京中科汇联科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 李兴林 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复合 实体 提取 方法 系统 | ||
本发明公开了一种复合实体提取方法及系统,所述方法包括:确定复合实体的依赖实体组;确定复合实体的表达式组;从目标文本依次提取依赖实体组,得到依赖实体命中词;对依赖实体命中词进行组合,生成候选依赖词组;根据候选依赖词组中各个词在文本中的位置过滤候选依赖词组;根据候选依赖词组分割目标文本,生成文本片段组;匹配表达式组和文本片段组,根据匹配结果提取出复合实体的命中词。本发明提供的复合实体提取方法及系统,能够利用提取出的简单实体的命中词,从文本中提取出复合实体的命中词,有利于提高复合实体的识别效果。
技术领域
本发明涉及文本提取技术领域,特别是涉及一种复合实体提取方法及系统。
背景技术
随着自然语言理解以及知识图谱技术的发展,实体的概念在文本处理中广泛使用,伴随而来的是从文本中提取实体的挑战。
复合实体的表示依赖于其他已有的实体,这样就构成了实体之间的依赖关系。例如先定义了实体“数字”,然后定义实体“日期”,则实体“日期”的表示依赖于实体“数字”,对于实体“日期”的命中词“2020年1月1日”,其内嵌了实体“数字”的命中词“2020”、“1”、“1”。相较而言,实体“数字”是简单的实体,而实体“日期”是复杂的实体。大量的场景下,需要利用简单实体的提取结果来提取复杂实体。
发明内容
本发明的目的是提供一种复合实体提取方法及系统,能够利用提取出的简单实体的命中词,从文本中提取出复合实体的命中词,有利于提高复合实体的识别效果。
为实现上述目的,本发明提供了如下方案:
一种复合实体提取方法,该方法包括以下步骤:
确定复合实体的依赖实体组;
确定复合实体的表达式组;
从目标文本依次提取依赖实体组,得到依赖实体命中词;
对依赖实体命中词进行组合,生成候选依赖词组;
根据候选依赖词组中各个词在文本中的位置过滤候选依赖词组;
根据候选依赖词组分割目标文本,生成文本片段组;
匹配表达式组和文本片段组,根据匹配结果提取出复合实体的命中词。
可选的,所述表达式组的长度比依赖实体组的长度大1;各个所述候选依赖词组的长度均与依赖实体组的长度相同;所述文本片段组的长度与表达式组的长度相同。
可选的,所述从目标文本依次提取依赖实体组,得到依赖实体命中词,具体包括:
依次对所述依赖实体组中每一个实体进行实体提取,得到依赖实体命中词。
可选的,所述对依赖实体命中词进行组合,生成候选依赖词组,具体包括:
对所述依赖实体命中词进行分组、排列;
根据分组对所述依赖实体命中词进行组合。
可选的,所述根据候选依赖词组中各个词在文本中的位置过滤候选依赖词组,具体包括:
过滤在文本中的位置交叉的候选依赖词组;
过滤在文本中的位置顺序与所述依赖实体组顺序不一致的候选依赖词组。
可选的,所述根据候选依赖词组分割目标文本,生成文本片段组,具体包括:
确定所述候选依赖词组中各个词在目标文本中的位置;
初始化文本片段组;
所述目标文本中在所述候选依赖词组第一个词前面的子串放入所述文本片段组中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科汇联科技股份有限公司,未经北京中科汇联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010484708.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于超级柜台的电子证书下载方法及装置
- 下一篇:一种文本重构训练方法及系统