[发明专利]一种实体抽取的方法及装置有效
申请号: | 201710186520.X | 申请日: | 2017-03-24 |
公开(公告)号: | CN107133208B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 吴刚 | 申请(专利权)人: | 南京柯基数据科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 吴崇;刘敏 |
地址: | 211100 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 抽取 方法 装置 | ||
1.一种实体抽取的方法,其特征在于,包括:
确定目标文本的实体关系词,所述目标文本包括与预定实体相关的信息,所述实体关系词表示所述预定实体与待抽取实体之间为目标实体关系的词;
抽取所述目标文本中的表格,以及与所述表格一一对应的表格描述,所述表格描述为所述目标文本中位于所述表格之前的一个句子;
基于所述实体关系词从所述表格描述中筛选目标表格描述,所述目标表格描述包括记录了所述目标实体关系的表格描述;
将所述目标表格描述对应的表格确定为待抽取表格;
基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行;
抽取记录待抽取实体的列或行中的目标数据,将所述目标数据作为所述待抽取实体;
所述基于所述实体关系词从所述表格描述中筛选目标表格描述的处理,包括:
根据预设启发式规则,将表格描述分为符合目标实体关系的部分和不符合目标实体关系的部分,所述符合目标实体关系的部分为符合启发式规则的表格描述,其中,所述预设启发式规则根据所述实体关系词设定;
计算符合所述预设启发式规则的表格描述中每个词的信息增益;
基于所述信息增益的大小从所述每个词中选取至少一个特征词;
基于所述至少一个特征词和特征向量构建规则构建每个所述表格描述的特征向量,所述特征向量中的元素表示所述特征向量对应的表格描述是否包含所述至少一个特征词;
根据所述特征向量从所述表格描述中筛选所述目标表格描述;
其中,所述基于所述待抽取表格的内容确定所述待抽取表格中记录所述待抽取实体的列或行,包括:
将所述待抽取表格中数据与预设词库匹配,确定所述待抽取表格中记录所述待抽取实体的列或行;或者,基于预定特征构建所述待抽取表格中各行或各列的特征向量,所述预定特征包括所述各行或各列所包括数据的特征;从所述各行或各列的特征向量中筛选出记录所述待抽取实体的列或行,其中,所述各行或各列所包括数据的特征包括各行或各列的字符串长度,行数或列数。
2.根据权利要求1所述的方法,其特征在于,所述特征向量构建规则包括特征向量中的元素与一个所述特征词一一对应;
基于所述至少一个特征词和特征向量构建规则构建每个所述表格描述的特征向量,包括:
对每个所述表格描述,确定所述表格描述中包含的特征词和不包含的特征词;
在所述表格描述的特征向量中,将所述包含的特征词对应元素的值设置为第一预设值,将所述不包含的特征词对应的元素的值设置为第二预设值。
3.根据权利要求1所述的方法,其特征在于,所述基于所述信息增益的大小从所述每个词中选取至少一个特征词,包括:
从所述每个词中选取预设数目个所述信息增益最大的词为所述特征词,所述预设数目为不小于1的整数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量从所述表格描述中筛选所述目标表格描述,包括:
通过分类模型从所述特征向量中筛选满足预设规则的特征向量,其中,所述分类模型为对所述特征向量中的一部分特征向量进行标注后、通过标注的特征向量训练得到的,所述标注用于表示所述特征向量是否满足预设规则;
将所述满足预设规则的特征向量对应的表格描述确定为所述目标表格描述。
5.根据权利要求1所述的方法,其特征在于,所述将所述待抽取表格中数据与预设词库匹配,确定所述待抽取表格中记录所述待抽取实体的列或行,包括:
获取所述待抽取表格的第一行的数据和第一列数据;
将所述第一行的数据和所述第一列数据与预设词库匹配;
将所述第一行的数据中与所述预设词库匹配的数据对应的列确定为记录所述待抽取实体的列,将所述第一列的数据中与所述预设词库匹配的数据对应的行确定为记录所述待抽取实体的行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京柯基数据科技有限公司,未经南京柯基数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710186520.X/1.html,转载请声明来源钻瓜专利网。