[发明专利]基于自调参数的领域知识抽取方法与系统、电子设备有效
申请号: | 202110006928.0 | 申请日: | 2021-01-05 |
公开(公告)号: | CN112328812B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 姚苗;查琳;冶莎;张晨;周智海;王芳杰;覃晨;黄庆娇;王振宇;陈刚;何青松;向波;杨志勤;邢尚合;周凡吟 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 张玲;王莹莹 |
地址: | 610015 四川省成都市自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自调 参数 领域 知识 抽取 方法 系统 电子设备 | ||
本发明涉及一种基于自调参数的领域知识抽取方法与系统、电子设备,包括以下步骤:通过采集的领域数据构建领域本体知识库,所述领域本体知识库包括领域实体库、领域关系库、领域属性库;将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型;获取知识抽取模型中的可调参数,根据业务数据调整可调参数,对业务数据进行预处理后,将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为实体,关系,属性的三元组列表。本方案能够完备知识库,统一抽取实体、关系、属性,快速响应不同的业务需求。
技术领域
本发明涉及知识图谱技术领域,特别涉及一种基于自调参数的领域知识抽取方法与系统、电子设备。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识抽取是知识图谱构建的前置步骤,知识抽取结果的数量、质量直接影响到生成知识图谱的质量,特别对于非结构化数据成图,知识抽取则是必不可少的重要环节。
知识抽取的内容包括实体抽取、关系抽取、属性抽取。在工业领域,知识抽取的应用主要集中在实体抽取,比如在文本数据领域,主要应用在命名体识别技术,对人名、组织名称、机构名称等进行识别;在图像数据领域,主要应用在利用OCR技术上,并结合模板生成知识图谱。而关系抽取、属性抽取则主要基于领域生成相应的规则来进行知识抽取。
但目前的知识抽取还存在以下问题:
一、公开知识库难以完备
知识抽取的准确性与知识库的完整性、标准性具有较强的依赖关系,而开源的公共知识库只对通用概念进行了收集,对于具体业务领域的知识是不完备的,这就造成了开源的知识库没有办法直接用于实际业务场景。
二、知识抽取割裂
实体抽取、关系抽取、属性抽取被划分为不同的子任务,且需要顺序执行,目前没有一个完整的知识抽取模型能够同时满足实体抽取、关系抽取、属性抽取,但是在知识图谱中实体、关系、属性是有依赖关联的,将其任务划分必然会导致局部信息丢失。
三、难以快速响应变化
目前的知识抽取模型很难进行复用,每次进行知识抽取时都需要根据具体的业务数据进行重新训练、验证、测试,知识抽取模型建设周期很长,难以应对业务需求的快速变化。
发明内容
本发明的目的在于解决上述三个问题,即第一完备领域本体知识库,第二能够统一抽取实体、关系、属性,第三快速响应不同的业务需求,提供一种基于自调参数的领域知识抽取方法与系统、电子设备。
为了实现上述三个问题的发明目的,本发明实施例提供了以下技术方案:
基于自调参数的领域知识抽取方法,其特征在于:包括以下步骤:
依据开源知识库,对采集的领域数据进行预处理,通过预处理后的领域数据构建领域本体知识库,所述领域本体知识库包括领域本体,所述领域本体包括领域实体库、领域关系库、领域属性库;
将构建的领域本体知识库向量化处理后,作为预训练模型的输入,对预训练模型进行训练,得到知识抽取模型;
获取知识抽取模型中的可调参数,根据业务数据调整可调参数,对业务数据进行预处理后,将预处理后的业务数据和调整后的可调参数输入所述知识抽取模型,从而得到业务数据的抽取结果;所述抽取结果为实体,关系,属性的三元组列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110006928.0/2.html,转载请声明来源钻瓜专利网。