[发明专利]信息抽取方法、装置、电子设备及存储介质有效
申请号: | 202011488009.3 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112231494B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 任梦星;刘炎;覃建策;陈邦忠 | 申请(专利权)人: | 完美世界(北京)软件科技发展有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/28;G06F40/284;G06F40/289;G06F40/242;G06F16/35 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军;李曼 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 抽取 方法 装置 电子设备 存储 介质 | ||
1.一种信息抽取方法,其特征在于,所述方法包括:
利用预设的基于触发词的抽取规则和基于依存句法关系的抽取规则分别从样本语料中抽取样本实体关系三元组;将所述样本语料、所述样本实体关系三元组作为训练样本存储至训练样本集,以利用所述训练样本集对初始模型进行训练;当所述初始模型满足设定条件时停止训练,得到实体关系抽取模型;
利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组;
将所述待抽取的目标语料输入至已训练的所述实体关系抽取模型,得到第二实体关系三元组,所述已训练的实体关系抽取模型用于从输入的所述待抽取的目标语料中抽取所述第二实体关系三元组;
基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定所述待抽取的目标语料对应的目标实体关系三元组;
其中,所述利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组,包括:
对待抽取的目标语料进行分词处理,得到多个词语;对每一所述词语进行词性标注,得到每一所述词语的词性标记;基于每一所述词语的词性标记,并利用预设的基于依存句法关系的抽取规则从所述目标语料中抽取第三实体关系三元组;基于每一所述词语的词性标记,并利用预设的基于触发词的抽取规则和已构建的关系特征词典从所述目标语料中抽取第四实体关系三元组;利用所述第三实体关系三元组和所述第四实体关系三元组构成所述第一实体关系三元组;所述关系特征词典包括多条关系特征词集与候选实体间关系的对应关系,通过以下方式构建:针对每一所述候选实体间关系,确定每一预设的候选关系特征词对于所述候选实体间关系对应句子的第一词频,并确定每一预设的候选关系特征词对于所有候选实体间关系对应句子的第二词频;按照第一词频从大到小的顺序对所述候选关系特征词进行排序,得到第一排序结果,以及按照第二词频从小到大的顺序对所述候选关系特征词进行排序,得到第二排序结果;将所述第一排序结果中排在前N位的候选关系特征词归入第一集合,将所述第二排序结果中排在前M位的候选关系特征词归入第二集合,以及将所述第一集合和所述第二集合的交集确定为所述候选实体间关系对应的关系特征词集;所述N和M为大于0 的自然数。
2.根据权利要求1所述的方法,其特征在于,所述基于每一所述词语的词性标记,并利用预设的基于依存句法关系的抽取规则从所述目标语料中抽取第三实体关系三元组,包括:
基于每一所述词语的词性标记对所述目标语料进行依存句法分析,得到所述目标语料中词语之间的依存关系标签;
基于所述依存关系标签确定所述目标语料所符合的句法模式;
基于所述句法模式从所述目标语料中抽取第三实体关系三元组。
3.根据权利要求2所述的方法,其特征在于,所述基于依存关系标签确定所述目标语料所符合的句法模式,包括:
按照多个所述词语在所述目标语料中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;
从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式;
将所述目标句法模式确定为所述目标语料所符合的句法模式。
4.根据权利要求2所述的方法,其特征在于,所述基于句法模式从所述目标语料中抽取第三实体关系三元组,包括:
基于所述句法模式中的各依存关系标签从所述目标语料中抽取目标词元和核心关系词;
基于所述目标词元和核心关系词构建第三实体关系三元组。
5.根据权利要求1所述的方法,其特征在于,所述基于每一所述词语的词性标记,并利用预设的基于触发词的抽取规则和已构建的关系特征词典从所述目标语料中抽取第四实体关系三元组,包括:
对所述目标语料进行实体识别,得到至少一个实体;
若所述实体的数量大于等于设定的数量阈值,则基于每一所述词语的词性标记从所述多个词语中确定实体关系描述词;基于所述实体关系描述词查找已构建的关系特征词典;若查找到包含所述实体关系描述词的目标关系特征词集,则将所述目标关系特征词集对应的候选实体间关系确定为与所述目标语料相匹配的目标实体间关系;
基于所述实体和所述目标实体间关系构建第四实体关系三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于完美世界(北京)软件科技发展有限公司,未经完美世界(北京)软件科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011488009.3/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置