[发明专利]一种实体描述推理知识库构建与推理证据量化信息获取方法和装置在审
申请号: | 202011435544.2 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112667819A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 刘焕勇;刘张宇;邹志龙 | 申请(专利权)人: | 数据地平线(广州)科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N5/02;G06N5/04 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 511458 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 描述 推理 知识库 构建 证据 量化 信息 获取 方法 装置 | ||
1.一种实体描述推理知识库构建与推理证据量化信息获取方法,其特征在于,包括以下步骤:
利用大规模非结构化开放文本建立实体描述推理知识库,所述实体描述推理知识库包括实体描述知识库和实体关联传导库;
针对输入的事件或事件描述列表、事件对或事件描述对列表,通过实体链接,在实体描述推理知识库中进行检索,返回事件之间的推理证据与传导强度。
2.根据权利要求1所述的方法,其特征在于,所述实体描述知识库采用以下步骤建立:
对输入的文本进行预处理,形成段落集合和句子集合;
使用实体描述标记词表对段落集合和句子集合进行模式匹配,形成实体描述候选段落和候选句子集合;
采用序列标注的方法,针对候选段落和候选句子集合中的每一个句子,训练相应的实体和实体概念描述的识别模型,在字级别上进行实体及其所描述特征的学习;
利用训练完成的识别模型获得实体主体,实体描述二元组和实体主体,描述词,实体描述三元组,形成实体描述知识库。
3.根据权利要求2所述的方法,其特征在于,所述序列标注是指对给定的文本字符串,输出该字符串中每个字符所对应的字符标签;所述序列标注使用BIO的标注模式,以B-X标记实体的起始,以I-X标记实体的中间,以O标记无关的字符,待预测的标签则分为7种:B-Entity、I-Entity、B-Trigger、I-Trigger、B-Desc、I-Desc、O。
4.根据权利要求1所述的方法,其特征在于,所述实体关联传导库采用以下步骤建立:
获取实体描述知识库中的实体描述;
识别出实体描述中的关联实体以及其与实体主体之间的关联描述,形成实体主体,关联描述,关联实体三元组;
对实体主体和关联实体之间的关联描述进行量化,用作从实体主体到关联实体之间传导的关联强度;
形成实体主体,关联描述,关联实体,关联强度四元组集合,即构成实体关联传导库。
5.根据权利要求4所述的方法,其特征在于,所述对实体主体和关联实体之间的关联描述进行量化,是借助情感强度词表、程度副词表、量化规则库进行量化。
6.根据权利要求1所述的方法,其特征在于,采用以下步骤获取单事件描述推理证据量化信息:
针对输入的单个事件描述或者事件描述列表,借助构建好的实体描述推理知识库中的实体,进行实体识别和实体链接,将事件描述与实体描述推理知识库完成映射和关联;
基于关联的结果,基于当前实体在实体描述推理知识库中的位置,采用游走方法,根据设定的游走深度进行遍历拓展,得到关联的实体,以及实体传导之间的传导强度和推理证据。
7.根据权利要求1所述的方法,其特征在于,采用以下步骤获取双事件描述对推理证据量化信息:
针对输入的单个事件描述对或者事件描述对列表,借助构建好的实体描述推理知识库中的实体,进行实体识别和实体链接,将事件描述与实体描述推理知识库完成映射和关联,形成头事件实体链接集合和尾事件实体链接集合;
对头事件实体链接集合和尾事件实体链接集合分别进行组合,形成头事件实体,尾事件实体二元子图,将二元子图在实体描述推理知识库中进行子图多跳匹配,得到命中的关联传导子图;
对关联传导子图,分别采用广度优先和深度优先的遍历方法进行解析;
对关联传导子图解析过程中形成的关联传导路径和传导权重进行组装,将传导边所在的描述句作为推理证据,将描述边上的权重信息作为传导强度进行返回。
8.一种采用权利要求1~7中任一权利要求所述方法的实体描述推理知识库构建与推理证据量化信息获取装置,其特征在于,包括:
实体描述推理知识库构建模块,用于利用大规模非结构化开放文本建立实体描述推理知识库,所述实体描述推理知识库包括实体描述知识库和实体关联传导库;
推理证据量化信息获取模块,用于针对输入的事件或事件描述列表、事件对或事件描述对列表,通过实体链接,在实体描述推理知识库中进行检索,返回事件之间的推理证据与传导强度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数据地平线(广州)科技有限公司,未经数据地平线(广州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011435544.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节约用水防扬尘的道路用切缝装置
- 下一篇:运动侦测系统及方法