[发明专利]知识抽取方法、装置、设备及存储介质有效

专利信息
申请号: 202010365979.8 申请日: 2020-04-30
公开(公告)号: CN111581363B 公开(公告)日: 2023-08-29
发明(设计)人: 章文俊;甘露;卜建辉;吴伟佳 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/36;G06N3/04;G06N3/08
代理公司: 北京同立钧成知识产权代理有限公司 11205 代理人: 朱颖;臧建明
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 知识 抽取 方法 装置 设备 存储 介质
【权利要求书】:

1.一种知识抽取方法,其特征在于,包括:

根据用户在第一页面中输入的信息获取字段的名称和所述字段的设置信息,所述设置信息用于进行针对所述字段的知识抽取;

根据所述用户在第二页面中输入的待处理文档的相关信息和所述字段的名称创建知识抽取任务;所述知识抽取任务包括所述字段和待处理文档,所述知识抽取任务用于根据所述设置信息对所述待处理文档进行针对所述字段的知识抽取;

执行所述知识抽取任务,获得知识抽取答案;

输出所述知识抽取答案。

2.根据权利要求1所述的方法,其特征在于,所述设置信息包括知识抽取范围、知识抽取规则表达式、知识抽取返回粒度和知识抽取答案的数量。

3.根据权利要求2所述的方法,其特征在于,所述执行所述知识抽取任务,获得知识抽取答案,包括:

根据所述知识抽取范围在所述待处理文档中确定待抽取信息;

根据所述知识抽取答案的数量和所述知识抽取规则表达式对所述待抽取信息进行知识抽取,获得知识抽取结果信息;

根据所述知识抽取返回粒度和所述知识抽取结果信息,获得所述知识抽取答案。

4.根据权利要求3所述的方法,其特征在于,所述知识抽取答案的数量为一个,所述根据所述知识抽取答案的数量和所述知识抽取规则表达式对所述待抽取信息进行知识抽取,获得知识抽取结果信息,包括:

若所述知识抽取规则表达式为一个,则根据该知识抽取规则表达式对所述待抽取信息进行知识抽取,直至获取所述知识抽取结果信息,并停止进行知识抽取;

若所述知识抽取规则表达式为至少两个,则按照所述至少两个知识抽取规则表达式的优先级从高到低的顺序依次根据所述至少两个知识抽取规则表达式对所述待抽取信息进行知识抽取,直至获取所述知识抽取结果信息,并停止进行知识抽取。

5.根据权利要求3所述的方法,其特征在于,所述知识抽取答案的数量为至少一个,所述根据所述知识抽取答案的数量和所述知识抽取规则表达式对所述待抽取信息进行知识抽取,获得知识抽取结果信息,包括:

根据每个所述知识抽取规则表达式分别对所述待抽取信息进行知识抽取,获取每个所述知识抽取规则表达式分别对应的知识抽取结果信息。

6.根据权利要求3-5任一项所述的方法,其特征在于,所述根据所述知识抽取范围在所述待处理文档中确定待抽取信息,包括:

若所述待处理文档的格式不是预设文档格式,则根据所述预设文档格式将所述待处理文档转换为中间文档;

解析所述中间文档,获取文档信息;所述文档信息包括所述待处理文档中的各个段落、各个标题、标题层级,以及标题与段落之间的对应关系;

根据所述知识抽取范围和所述文档信息,确定所述待抽取信息。

7.根据权利要求2-5任一项所述的方法,其特征在于,所述设置信息还包括答案过滤规则;

所述输出所述知识抽取答案之前,还包括:

根据所述答案过滤规则对所述知识抽取答案进行过滤,获得修正后的知识抽取答案;

所述输出所述知识抽取答案,包括:

输出所述修正后的知识抽取答案。

8.根据权利要求2-5任一项所述的方法,其特征在于,所述设置信息还包括映射信息,所述映射信息用于指示知识抽取答案的格式为预设答案格式;

所述输出所述知识抽取答案之前,还包括:

若所述知识抽取答案的格式不是所述预设答案格式,则根据所述预设答案格式对所述知识抽取答案进行转换,获得转换后的知识抽取答案;

所述输出所述知识抽取答案,包括:

输出所述转换后的知识抽取答案。

9.根据权利要求2-5任一项所述的方法,其特征在于,所述知识抽取范围包括全文范围、段落范围和标题范围。

10.根据权利要求2-5任一项所述的方法,其特征在于,所述知识抽取返回粒度包括字段、句子和段落。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010365979.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top