[发明专利]一种复合实体提取方法及系统有效
申请号: | 202010484708.4 | 申请日: | 2020-06-01 |
公开(公告)号: | CN111639499B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 朱江平;王丙栋;游世学 | 申请(专利权)人: | 北京中科汇联科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 李兴林 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复合 实体 提取 方法 系统 | ||
1.一种复合实体提取方法,其特征在于,包括以下步骤:
确定复合实体的依赖实体组;
确定复合实体的表达式组;
从目标文本依次提取依赖实体组,得到依赖实体命中词;
对依赖实体命中词进行组合,生成候选依赖词组;
根据候选依赖词组中各个词在文本中的位置过滤候选依赖词组;
根据候选依赖词组分割目标文本,生成文本片段组;
匹配表达式组和文本片段组,根据匹配结果提取出复合实体的命中词;
所述根据候选依赖词组分割目标文本,生成文本片段组,具体包括:
确定所述候选依赖词组中各个词在目标文本中的位置;
初始化文本片段组;
所述目标文本中在所述候选依赖词组第一个词前面的子串放入所述文本片段组中;
所述目标文本中在候选依赖词组相邻词之间的子串放入文本片段组中;
所述目标文本中在所述候选依赖词组最后一个词后面的字串放入所述文本片段组中;
所述匹配表达式组和文本片段组,根据匹配结果提取出复合实体的命中词,具体包括:
匹配所述表达式组中第一个表达式和所述文本片段组中第一个文本片段;
匹配所述表达式组中最后一个表达式和所述文本片段组中最后一个文本片段;
匹配所述表达式组中中间的表达式和所述文本片段组中对应的文本片段;
其中,所述第一个表达式和最后一个表达式的匹配方法相同,具体包括:
如果所述表达式组中第一个表达式或最后一个表达式为空字符串,与所有文本片段匹配;
如果所述表达式组中第一个表达式或最后一个表达式为非空的普通文本,与以其结尾的文本片段匹配;
如果所述表达式组中第一个表达式或最后一个表达式为非空的正则表达式,与以该正则表达式模式结尾的文本片段匹配;
所述中间的表达式的匹配方法如下:
如果所述表达式组中中间的表达式为普通文本,与和其一致的文本片段匹配;
如果所述表达式组中中间的表达式为正则表达式,与匹配该正则表达式模式的文本片段匹配。
2.根据权利要求1所述的复合实体提取方法,其特征在于,所述表达式组的长度比依赖实体组的长度大1;各个所述候选依赖词组的长度均与依赖实体组的长度相同;所述文本片段组的长度与表达式组的长度相同。
3.根据权利要求1所述的复合实体提取方法,其特征在于,所述从目标文本依次提取依赖实体组,得到依赖实体命中词,具体包括:
依次对所述依赖实体组中每一个实体进行实体提取,得到依赖实体命中词。
4.根据权利要求1所述的复合实体提取方法,其特征在于,所述对依赖实体命中词进行组合,生成候选依赖词组,具体包括:
对所述依赖实体命中词进行分组、排列;
根据分组对所述依赖实体命中词进行组合。
5.根据权利要求1所述的复合实体提取方法,其特征在于,所述根据候选依赖词组中各个词在文本中的位置过滤候选依赖词组,具体包括:
过滤在文本中的位置交叉的候选依赖词组;
过滤在文本中的位置顺序与所述依赖实体组顺序不一致的候选依赖词组。
6.一种复合实体提取系统,其特征在于,应用于权利要求1-5任一所述的复合实体提取方法,包括:
复合实体管理模块,用于确定复合实体的依赖实体组和表达式组;
简单实体提取模块,用于从目标文本依次提取依赖实体组,得到依赖实体命中词;
依赖词组过滤模块,用于根据候选依赖词组中各个词在文本中的位置过滤候选依赖词组;
复合实体提取模块,用于根据候选依赖词组分割目标文本,生成文本片段组,并匹配表达式组和文本片段组,根据匹配结果提取出复合实体的命中词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科汇联科技股份有限公司,未经北京中科汇联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010484708.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于超级柜台的电子证书下载方法及装置
- 下一篇:一种文本重构训练方法及系统