[发明专利]一种基于文本挖掘的Al-Si合金材料实体关系抽取方法在审
申请号: | 202110017771.1 | 申请日: | 2021-01-07 |
公开(公告)号: | CN112685513A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 刘英莉;李武亮;么长慧;沈韬 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06N3/04;G06N3/08;G16C60/00 |
代理公司: | 昆明同聚专利代理有限公司 53214 | 代理人: | 王远同 |
地址: | 650000 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 挖掘 al si 合金材料 实体 关系 抽取 方法 | ||
1.一种基于文本挖掘的Al-Si合金材料实体关系抽取方法,具体包括如下步骤:
步骤S1,构造语料集,收集整理Al-Si合金的材料科学文献,将材料科学文献按句子进行切分,形成句子语料集;根据制定的Al-Si合金关系抽取语料库构建标准,利用数据标注平台对句子语料集中的语料数据进行标注,形成标注数据;按8:1的比例将标注后的句子语料集随机分为训练语料集和测试语料集;
步骤S2,通过资料收集,人工整理出材料实体间的多种关系,采用端到端的联合模型,对材料实体识别与关系抽取任务进行联合建模,将训练语料输入至联合模型进行训练和测试,生成关系抽取模型;
步骤S3,使用关系抽取模型预测测试语料文本中的实体之间的关系。
2.根据权利要求1所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法,其特征在于:对步骤S2中所述的材料实体包括以下11种实体类型:含量、元素、合金、实验、实验结果、测试名、测试值、测试图、相、参数名、参数值;所述多种关系包括以下13种关系:含量-元素、元素-合金、合金-实验、实验-实验结果、实验-参数名、实验结果-参数名、参数名-参数值、合金-测试名、测试名-参数名、测试名-测试值、测试名-测试图、测试名-相、相-测试值。
3.根据权利要求1所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法,其特征在于:步骤S2中关系抽取模型包括:
S21对训练语料进行预处理,将预处理后的数据输入至ELMo模型得到每个词的词向量;
S22采用将实体识别与关系抽取进行联合的端到端建模任务,将关系抽取视为多头选择问题,为每一个实体识别潜在的多种关系来解决实体关系重叠问题;通过基于深度神经网络的BiLSTM模型、CRF模型以及sigmoid函数同时进行材料科学文献中的实体识别和关系抽取;
S23将训练语料输入至联合模型进行训练和测试,生成关系抽取模型,在训练过程中单独留出样本集,将其用于调整模型的超参数并对模型进行初步评估。
4.根据权利要求3所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法,其特征在于,将训练语料输入至联合模型进行训练和测试,生成关系抽取模型,训练和测试包括以下几个部分:
(1)双向长短期记忆神经网络层:采用双向长短期记忆神经网络对文献句子中所有的词向量进行双向编码得到双向的信息,包括前向向量和反向向量步长为i的输出:
(2)条件随机场层:在NER中使用一个线性链的CRF,计算每个令牌最可能的实体标签,每个实体标签计算每个令牌Wi的分数:
s(e)(hi)=V(e)f(U(e)hi+b(e)) (2)
其中上标(e)表示NER任务,f(·)是逐元素激活函数relu.V(e)∈Rp×l,U(e)∈Rl×2d,b(e)∈Rl,d为LSTM的隐藏大小,p为NER标签的数量,l为图层宽度;
假设词向量为W,则得分向量序列为s1(e),...,sn(e),标签预测向量为y1(e),...,yn(e),线性链得分定义为:
其中是令牌Wi的预测标签的分数;T是一个正方形转换矩阵,其中每个条目代表从一个标签到另一个标签的转换分数;T∈R(p+2)×(p+2),y01(e)和yn(e)是分别代表句子开头和结尾的两个辅助标签;然后,将给定标签序列在输入句子w的所有可能标签序列上的概率定义为:
(3)标签嵌入:用于学习实体识别标签的嵌入,获得令牌wi的标签嵌入gi;下一层的输入为隐藏LSTM状态hi和令牌wi的标签嵌入gi的拼接:
zi=[hi;gi],i=0,...,n
(4)Sigmoid Layer:使用sigmoid损失来获得多个关系;每一个单词可以与其他的单词有多种关系,预测的元组中,是头向量,是每个令牌wi对应的关系的向量;给定一个令牌序列W和一组关系标签R作为输入,目标是识别每个令牌wi,i=0,...,n最有可能的头向量和最可能对应的关系标签给定标签rk,计算令牌wi和wj之间的分数:
s(r)(zj,zi,rk)=V(r)f(U(r)zj+W(r)zi+b(r)) (5)
上角标r表示关系抽取任务,f()是激活函数,V(r)∈Rl,U(r)∈Rl×(2d+b),W(r)∈Rl×(2d+b),b(r)∈Rl,其中d是LSTM隐藏层的大小,l是LSTM层的宽度;
Pr(head=wj,label=rk|wi)=σ(s(r)(zj,zi,rk) (6)
上面公式为令牌wj为令牌wi的头的概率,其关系标签为rk。
5.根据权利要求1所述的基于文本挖掘的Al-Si合金材料实体关系抽取方法,其特征在于,步骤S3中使用关系抽取模型预测测试语料文本中的实体之间的关系包括:
将分割后所得到的句子输入到关系抽取模型,提取出实体关系对;
对提取出的实体关系对进行人工排查,剔除错误的实体关系对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110017771.1/1.html,转载请声明来源钻瓜专利网。