[发明专利]知识抽取方法、装置、设备及存储介质有效
申请号: | 202010365979.8 | 申请日: | 2020-04-30 |
公开(公告)号: | CN111581363B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 章文俊;甘露;卜建辉;吴伟佳 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;臧建明 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 抽取 方法 装置 设备 存储 介质 | ||
本申请公开了知识抽取方法、装置、设备及存储介质,涉及大数据技术。具体实现方案为:根据用户在第一页面中输入的信息获取字段的名称和字段的设置信息,设置信息用于进行针对字段的知识抽取;根据用户在第二页面中输入的信息创建知识抽取任务;知识抽取任务包括字段和待处理文档,知识抽取任务用于根据设置信息对待处理文档进行针对字段的知识抽取;执行知识抽取任务,获得知识抽取答案;输出知识抽取答案。本申请提供的知识抽取方法,降低了知识抽取的人工成本,提升了知识抽取的效率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种大数据技术。
背景技术
知识图谱的构建基于知识的抽取或知识的挖掘。当前,知识抽取主要基于神经网络的机器学习实现。
神经网络模型需要基于样本数据预先训练,神经网络模型的运行效果与样本数据的数量和准确性密切相关。训练前期缺乏标注数据,通常通过人工标注的方式获取样本数据,这就增大了知识抽取的人工成本,而且效率较低。
发明内容
提供了一种知识抽取方法、装置、设备及存储介质,降低了知识抽取的人工成本,提升了知识抽取的效率。
根据第一方面,提供了一种知识抽取方法,包括:
根据用户在第一页面中输入的信息获取字段的名称和所述字段的设置信息,所述设置信息用于进行针对所述字段的知识抽取;
根据所述用户在第二页面中输入的信息创建知识抽取任务;所述知识抽取任务包括所述字段和待处理文档,所述知识抽取任务用于根据所述设置信息对所述待处理文档进行针对所述字段的知识抽取;
执行所述知识抽取任务,获得知识抽取答案;
输出所述知识抽取答案。
可以看出,与现有技术不同的是,本申请实施例中,通过用户在第一页面中输入的信息可以获取字段的名称和字段的设置信息,通过用户在第二页面中输入的信息可以创建知识抽取任务,知识抽取任务用于根据字段的设置信息对待处理文档进行针对该字段的知识抽取,从而,执行知识抽取任务,获得并输出知识抽取答案。本申请提供的知识抽取方法,相比于现有技术,没有使用神经网络模型实现知识抽取,而是通过字段的设置信息实现对文档的知识抽取,避免了使用神经网络模型时需要预先获取训练样本和预先训练模型的过程,降低了人工成本,缩短了准备时间,提升了知识抽取的效率。
根据第二方面,提供了一种知识抽取装置,包括:
获取模块,用于根据用户在第一页面中输入的信息获取字段的名称和所述字段的设置信息,所述设置信息用于进行针对所述字段的知识抽取;
创建模块,用于根据所述用户在第二页面中输入的信息创建知识抽取任务;所述知识抽取任务包括所述字段和待处理文档,所述知识抽取任务用于根据所述设置信息对所述待处理文档进行针对所述字段的知识抽取;
处理模块,用于执行所述知识抽取任务,获得知识抽取答案;
输出模块,用于输出所述知识抽取答案。
根据第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的方法。
根据第四方面,提供了存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010365979.8/2.html,转载请声明来源钻瓜专利网。