[发明专利]基于远程监督和提示学习的实体属性生成方法及系统在审
申请号: | 202211474722.1 | 申请日: | 2022-11-23 |
公开(公告)号: | CN115878813A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 曾山松;张磊;余安东;胡佳 | 申请(专利权)人: | 电信科学技术第五研究所有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F16/28;G06F18/24;G06F18/214;G06N5/022;G06N20/00 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 杨春 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 远程 监督 提示 学习 实体 属性 生成 方法 系统 | ||
本发明公开了基于远程监督和提示学习的实体属性生成方法及系统,涉及知识图谱领域,方法包括S1构建知识图谱;S2实体e、e的ake、及ave组成的三元组,在开放文档库D中检索e和ave,召回文本集合De;S3将De中正确表达ake的de标注为正例文本se,集合C为三元组与se组成的四元组集合;S4获取文本x;S5识别x中e,抽取e的ake;S6将x、e和ake转化成xprompt;S7获得实体的属性值;系统包括知识图谱、开放文档数据库、提示学习模板引擎、预训练语言模块和实体识别模块;将提示学习用于实体属性抽取中,以有效解决了传统分类器存在的问题。
技术领域
本发明涉及知识图谱领域,尤其涉及一种基于远程监督和提示学习的实体属性生成方法及系统。
背景技术
知识构建技术是整个知识图谱技术的基石,知识构建包括从结构化的数据中导入知识和非结构化的文档中抽取知识。互联网的开放世界中存在大量的非结构化数据,研究如何从非结构化的文档中构建知识十分必要,从非结构化文档中抽取知识需要抽取出文档中的实体、属性、关系和事件等知识要素。其中属性抽取作为知识抽取的重要手段,引起许多研究者的关注,现有的方法通常将属性抽取视为关系抽取任务,关系抽取任务常基于分类的方法,首先识别出文本中的各个实体,再将文本的语义表示特征输入分类器中,对文本中两两实体的关系进行分类,将基于分类的方法用于属性抽取,主要存在以下两个问题:
1.属性抽取不同于关系抽取,需要抽取的属性值可能不是严格意义的实体类型,而是一个自由文本片段,而基于分类器的关系抽取方法只能抽取两个已知实体之间的关系。
2.基于分类的方法利用预训练模型进行关系抽取时需要精心设计分类器,工作十分繁琐。
发明内容
本发明的目的就在于为了解决上述问题设计了一种基于远程监督和提示学习的实体属性生成方法及系统。
本发明通过以下技术方案来实现上述目的:
基于远程监督和提示学习的实体属性生成方法,包括:
S1、构建知识图谱G={E,R,A},其中E为知识图谱中各个实体的集合,R为知识图谱中各个关系的集合,A={a}为知识图谱中各个属性组成的集合,a是一个包含属性名ak和属性值av的二元组;
S2、利用远程监督方法,将图谱中的实体e∈E、实体e的属性名ake、及其属性名ake对应的属性值ave组成的三元组(e,ake,ave)作为种子,通过实体e和属性值ave到开放文档库D中去检索,召回同时包含实体e和属性值ave的文本集合De={de};
S3、将文本集合De中能够正确表达属性类型ake的文本de标注为正例se∈Se,定义集合C={(e,ake,ave,se)}为知识图谱中所有种子三元组(e,ake,ave)召回的正例文本se组成的四元组集合;
S4、获取待生成实体属性的文本x;
S5、利用实体识别模型识别文本x中每个实体e,并抽取实体e的属性名ake;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电信科学技术第五研究所有限公司,未经电信科学技术第五研究所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211474722.1/2.html,转载请声明来源钻瓜专利网。