[发明专利]一种领域知识抽取方法、系统、电子设备及介质在审
申请号: | 202110817142.7 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113486153A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 于皓;张杰;吴信东;吴明辉;袁杰;罗华刚;陈栋;李犇;邓礼志;王展 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F16/35;G06N5/02 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李红岩 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 知识 抽取 方法 系统 电子设备 介质 | ||
1.一种领域知识抽取方法,其特征在于,包括:
领域词典生成步骤:根据领域知识词典,建立领域知识等级体系后,根据所述领域知识等级体系获取所述领域知识词典的等级;
预训练模型建立步骤:根据所述等级对数据处理后的语料数据中的领域知识进行mask处理获取所述最终语料数据后,对所述最终语料数据进行调参学习获取领域知识预训练模型;
领域知识抽取模型构建步骤:将标注语料的原始文本输入到所述领域知识预训练模型后,获取所述标注语料的tocken特征,将所述tocken特征输入到序列分类模型中获取领域知识抽取模型;
领域知识抽取步骤:获取需要抽取领域知识的语料数据,并将所述语料数据输入到所述领域知识抽取模型后,所述领域知识抽取模型输出领域知识。
2.根据权利要求1所述的领域知识抽取方法,其特征在于,所述词典生成步骤包括:
词典获取步骤:通过收集和整理相关的领域信息获取领域字典后,通过TF-IDF等算法从语料数据中抽取重要性的领域语料词典;
领域知识等级体系建立步骤:通过融合所述领域字典与所述领域语料词典获取所述领域知识词典,并根据所述领域知识词典建立所述领域知识等级体系后,根据所述领域知识等级体系获取所述领域知识词典的所述等级。
3.根据权利要求2所述的领域知识抽取方法,其特征在于,所述预训练模型建立步骤包括:
语料数据预处理步骤:通过对所述语料数据进行数据清洗、去噪与格式化操作获取标准的Bert模型数据输入格式的数据处理后的所述语料数据;
最终语料数据获取步骤:根据所述等级对数据处理后的所述语料数据中的所述领域知识进行所述mask处理获取所述最终语料数据;
预训练模型获取步骤:通过Bert预训练模块对所述最终语料数据进行所述调参学习获取所述领域知识预训练模型。
4.根据权利要求1所述的领域知识抽取方法,其特征在于,所述领域知识抽取模型构建步骤包括:
标注语料获取步骤:通过构建需要抽取的所述领域知识相关的语料标注和知识类型获取标注语料,并根据不同的所述知识类型建立领域知识等级体系;
标注语料特征获取步骤:将所述标注语料的所述原始文本输入到所述领域知识预训练模型后,获取所述标注语料的所述tocken特征;
领域知识抽取模型获取步骤:将所述tocken特征输入到序列分类模型,根据不同的所述知识类型,在损失函数中赋予不同的权重获取所述领域知识抽取模型。
5.一种领域知识抽取系统,其特征在于,适用于上述权利要求1至4中任一项所述的领域知识抽取方法,所述领域知识抽取系统包括:
领域词典生成单元:根据领域知识词典,建立领域知识等级体系后,根据所述领域知识等级体系获取所述领域知识词典的等级;
预训练模型建立单元:根据所述等级对数据处理后的语料数据中的领域知识进行mask处理获取所述最终语料数据后,对所述最终语料数据进行调参学习获取领域知识预训练模型;
领域知识抽取模型构建单元:将标注语料的原始文本输入到所述领域知识预训练模型后,获取所述标注语料的tocken特征,将所述tocken特征输入到序列分类模型中获取领域知识抽取模型;
领域知识抽取单元:获取需要抽取领域知识的语料数据,并将所述语料数据输入到所述领域知识抽取模型后,所述领域知识抽取模型输出领域知识。
6.根据权利要求5所述的领域知识抽取系统,其特征在于,所述词典生成单元包括:
词典获取模块:通过收集和整理相关的领域信息获取领域字典后,通过TF-IDF等算法从语料数据中抽取重要性的领域语料词典;
领域知识等级体系建立模块:通过融合所述领域字典与所述领域语料词典获取所述领域知识词典,并根据所述领域知识词典建立所述领域知识等级体系后,根据所述领域知识等级体系获取所述领域知识词典的所述等级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110817142.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地下水大数据平台
- 下一篇:一种中空异形纤维纱线及其制备方法