[发明专利]一种基于文本挖掘的Al-Si合金材料实体关系抽取方法在审

专利信息
申请号: 202110017771.1 申请日: 2021-01-07
公开(公告)号: CN112685513A 公开(公告)日: 2021-04-20
发明(设计)人: 刘英莉;李武亮;么长慧;沈韬 申请(专利权)人: 昆明理工大学
主分类号: G06F16/28 分类号: G06F16/28;G06N3/04;G06N3/08;G16C60/00
代理公司: 昆明同聚专利代理有限公司 53214 代理人: 王远同
地址: 650000 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 挖掘 al si 合金材料 实体 关系 抽取 方法
【说明书】:

发明公开一种基于文本挖掘的Al‑Si合金材料实体关系抽取方法,属于计算机应用技术领域。本发明所述方法为收集材料文献并按句子进行切分,形成句子语料集;根据制定的合金关系抽取语料库构建标准进行实体以及实体关系标注,将标注后的语料集随机分为训练语料集和测试语料集;将训练语料集中的样本数据输入至ELMo模型获得词嵌入,得到的词嵌入作为端到端的联合模型的输入,进行模型训练。本发明所述方法解决了从材料文献中抽取实体及实体关系的问题,可以将材料文献中实体和实体间的关系提取出来,与传统方法相比提高了准确率;同时构造了合金关系抽取语料库,解决了材料实体关系语料库的构建问题。

技术领域

本发明涉及一种基于文本挖掘的Al-Si合金材料实体关系抽取方法,属于计算机应用技术领域。

背景技术

材料科学研究中机器可解释的数据主要来源于结构化属性数据库,然而绝大多数的科学知识都是以文本形式发表的,结构化属性数据库中仅包含研究文献中的一小部分知识。材料科学文献是材料科学大数据的一类重要来源,其中包含大量有价值的信息;但是这些信息多以非结构化文本的形式存在,加之文献数目以千万计,因此需要信息的高效获取以及利用有效的计算机技术。

目前关系抽取已广泛应用于特定领域,在生物医学文本挖掘等领域取得了显著成效。随着“材料基因组计划”的提出,现有的材料数据由于共享性较差,不足以支撑材料研发的应用。由于材料科学实体间存在着错综复杂的关系,其中蕴含了大量有价值的信息。因此,材料科学实体关系抽取是信息抽取工作的核心。材料科学实体关系抽取是对于文献中用户关注的实体,如成分、结构、性能以及实验参数等,判定他们在文本范围内的语义上是否存在关系,以及存在何种关系。

然而,已有相关研究表明,不同领域的文本在文本结构及语言表述上存在较大的差异。材料科学文本挖掘不能直接照搬通用NLP的方法和工具,需要进行专门的研究。针对材料科学文献的文本语料在句子级关系抽取上存在的一些问题:一是与通用领域相比,材料科学领域的文章中的句子即长且结构复杂,关系抽取性能有待提高;二是在材料科学领域目前并没有公开的信息抽取评测数据集,由于材料的多样性及复杂性,语料库的构造是需要解决一个主要问题。

发明内容

针对上述背景技术中存在的问题,本发明提供了一种基于文本挖掘的Al-Si合金材料实体关系抽取方法,本方法使用的是深度学习模型,能够在Al-Si合金材料文献中自动抽取实体及实体之间的关系。

为实现上述目的,本发明提供了以下方案:

一种基于文本挖掘的Al-Si合金材料实体关系抽取方法,具体包括如下步骤:

步骤S1,构造语料集,按8:1的比例将语料随机分为训练语料集和测试语料集。

步骤S2,通过资料收集,人工整理出材料实体对间的多种关系,采用端到端的联合模型,对材料实体识别与关系抽取任务进行联合建模;将训练语料输入至联合模型进行训练和测试,生成关系抽取模型。

步骤S3,使用关系抽取模型预测测试语料文本中的实体之间的关系。

进一步的,本发明步骤S1中所述构造语料集还包括:收集整理Al-Si合金的材料科学文献,将材料科学文献按句子进行切分,形成句子语料集。

根据制定的Al-Si合金关系抽取语料库构建标准,利用数据标注平台Brat对语料库数据进行标注,产生.ann和.conll两个文件。

使用BIO标注方法;其中“B”代表某种实体的开始位置,“I”代表某种实体的内部,“O”不代表任何实体类型;将.ann和.conll两个文件的标注内容通过预处理将其转换包括[token_id,token,BIO,relation,head]这五列的输入格式。

本发明所述材料实体对是指材料的科学术语。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110017771.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top