[发明专利]一种基于MRC框架的实体抽取方法在审
申请号: | 202310157203.0 | 申请日: | 2023-02-23 |
公开(公告)号: | CN116362247A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 贝毅君;高克威 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06N3/0455;G06N3/088;G06F40/211;G06F18/2415 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mrc 框架 实体 抽取 方法 | ||
本发明公开了一种基于MRC框架的实体抽取方法,该方法包括:首先根据设备维护手册获取目标句子,根据实体类型的定义生成相应的问题,将目标句子和问题进行拼接以获取语料;然后采用分词工具对语料进行分词,并进行编码后输入BERT模型获取目标句子的词嵌入表示;其次将目标句子的词嵌入表示通过句子分类模块获取句子级别特征;再将句子级别特征和目标句子的词嵌入表示相结合以整合到实体抽取模块;最后将句子分类模块和实体抽取模块相结合,并对二者共同训练,根据训练完成的两个模块完成实体抽取。本发明能够将句子级别的信息用于实体抽取任务中,有助于提高实体抽取的精度,很好地解决了设备维护文档中实体的抽取问题。
技术领域
本发明涉及工业设备维护领域,尤其涉及一种基于MRC(Machine ReadingComprehension,机器阅读理解)框架的实体抽取方法。
背景技术
数控机床设备是生产活动的物质技术基础,保证设备健康持续地运行,减少风险和故障的发生,是每一个制造业企业能够正常运行的前提。但是随着经济全球化的发展,企业之间的竞争在不断地加大,设备也变得越来越机械化、自动化和智能化。与此同时,设备系统结构复杂性日益增加,设备的故障检测、诊断、预测和日常综合维护等工作难度也不断的加大。系统中任何一个部件出现故障,都将影响整个设备系统的正常运行。在近十几年快速发展的工业中,国内外由于机械部件故障而导致的灾难性事件也时有发生。
数控机床设备维护技术和工业生产的发展相互促进,随着传统工业生产的发展,其存在不足与局限性:由于数据分散、繁杂,传统的设备管理系统信息检索效果非常不理想;各个数据之间其实是存在关联的,如设备和各个故障维修方法,两者是存在着紧密联系,而传统的系统对于这些数据没有进行一定的关联,导致数据与数据之间关联性较差;传统的设备维护大部分都是依赖维护人员的经验知识以及维护文档,知识非常零散,当设备出现故障时,维护工作难以快速、有效的展开。
由于这些的不足,数控机床设备维护的技术方法需要不断的提高,同时数控机床设备维护知识图谱存在缺失的问题,使得遇到一些问题难以快速展开。而命名实体识别是知识图谱构建过程中的重要步骤。本发明旨在提出一种面向设备维护领域的实体抽取方法,以用于知识图谱在数控机床设备维护领域的构建。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于MRC框架的实体抽取方法。
本发明的目的是通过以下技术方案来实现的:一种基于MRC框架的实体抽取方法,包括以下步骤:
(1)根据设备维护手册获取目标句子,根据实体类型的定义生成相应的问题,将所述目标句子和所述问题进行拼接以获取语料;
(2)采用分词工具对所述步骤(1)获得的语料进行分词,并对分词后的语料进行编码,将编码后的语料输入BERT模型,以获取目标句子的词嵌入表示;
(3)根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征;
(4)将所述步骤(3)获取的句子级别特征按照权重结合到所述步骤(2)获取的目标句子的词嵌入表示中,以获取新的目标句子词嵌入;根据新的目标句子词嵌入预测可能作为开端的词,以获取词头集合;根据新的目标句子词嵌入预测可能作为结尾的词,以获取词尾集合;并将词头集合和词尾集合中的词进行匹配;
(5)根据所述步骤(4)中匹配后的结果完成实体抽取。
可选地,所述步骤(2)中,分词工具为WordpieceTokenizer;通过bert-embedding对分词后的语料进行编码。
可选地,所述步骤(3)中,根据所述步骤(2)获取的目标句子的词嵌入表示获取句子级别特征具体为:将所述步骤(2)获取的目标句子的词嵌入表示通过多头注意力机制层,并将多头注意力机制层的输出进行最大池化处理以获取目标句子嵌入,根据目标句子嵌入预测句子类型。
可选地,所述目标句子嵌入为句子级别特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310157203.0/2.html,转载请声明来源钻瓜专利网。