[发明专利]一种基于BERT嵌入的软件编程领域实体识别方法在审
申请号: | 202011007465.1 | 申请日: | 2020-09-23 |
公开(公告)号: | CN112149421A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 唐明靖;王俊;陈建兵;邹伟 | 申请(专利权)人: | 云南师范大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F40/284;G06F16/35;G06K9/62;G06N3/04 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 王娟 |
地址: | 650500 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 嵌入 软件 编程 领域 实体 识别 方法 | ||
1.一种基于BERT嵌入的软件编程领域实体识别方法,其特征在于:
首先,利用自然语言处理技术对软件问答社区StackOverflow的数据集进行文本解析和预处理,结合领域分析确定软件编程领域实体类别,并基于Bart自然语言标注工具对样本数据进行人工标注获得训练集和测试集;然后,通过BERT预训练语言模型获得输入序列的语义和向量化表示,并结合BiGRU双向循环神经网络对输入序列进行模型训练;最后,通过CRF条件随机场对输入标签序列建模,从而得到概率最大的标签序列,实现软件编程领域的实体识别。
2.根据权利要求1所述的基于BERT嵌入的软件编程领域实体识别方法,其特征在于具体步骤为:
Step1、软件问答社区数据集预处理;
Step1.1:解析html文本,提取软件编程问答内容文本;
Step1.2:去除文本中包含的标签内容,以空格为分隔符进行分词,标签内容包括链接和源代码;
Step1.3:按1:9的比例,将样本数据划分为测试集和训练集;
Step2、样本数据标注;
Step2.1:结合软件编程领域分析,确定软件编程领域实体的类别清单;
Step2.2:根据Step2.1确定的实体类别清单,利用Bart自然语言标注工具和交叉验证法对软件问答社区样本数据进行人工标注;
Step3、特征提取及向量化;
Step3.1:在BERT模型预训练中,采用Masked语言模型MLM和下一句预测NSP两种策略用于模型预训练,用[CLS]表示句首,[SEP]表示句尾,并随机遮盖15%的单词;
Step3.2:构建BERT模型的输入表示,对于输入词序列X=(x1,x2,…,xn),n表示输入词序列的长度,每个单词向量由Token Embeddings、Segment Embeddings和PositionEmbeddings三部分求和得到;
其中,Token Embeddings表示词向量,Segment Embeddings表示句子向量,用于区分不同的句子,Position Embeddings是通过模型学习得到的位置向量;
Step3.3:导入BERT预先训练好的英文模型,并结合Step2中产生的软件问答社区标注样本数据进行模型训练;
Step3.4:获取BERT模型的输出,得到软件问答社区标注样本数据的词向量表示序列:C=(c1,c2,…,cn);
Step4:将Step3中得到软件问答社区单词序列向量C=(c1,c2,…,cn)输入到BiGRU-CRF模型进行软件编程领域实体识别,具体步骤为:
Step4.1:把Step3中输出的序列向量C=(c1,c2,…,cn)输入双向循环神经网络BiGRU进行模型训练;
GRU输入为前一时刻隐藏层ht-1和当前输入xt,输出为下一时刻隐藏层信息ht;
GRU包含重置门rt和更新门zt,其中rt用来计算候选隐藏层控制保留多少前一时刻隐藏层ht-1的信息;zt用来控制加入多少候选隐藏层的信息,从而得到输出ht;
rt=σ(Wr·[ht-1,xt]) (2)
zt=σ(Wz·[ht-1,xt]) (3)
Step4.2:在BiGRU双向神经网络的hidden层之后接入CRF层,把通过BiGRU模型得到的每个单词对应的标签概率作为条件随机场CRF的输入,CRF通过统计标签直接的转移概率对双向循环神经网络的结果加以限制从而得到测试集数据的最终预测结果;
对于输入序列X=(x1,x2,…,xn)和对应的标签序列Y=(y1,y2,…,yn),通过式(5)进行分数评估:
标签序列y的最大概率用SoftMax函数计算,见式(6):
对于训练集和(xi,yi)采用最大条件似然函数评估,见式(7):
Step5:采用精确率、准确率、召回率和F1值对模型结果进行评价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011007465.1/1.html,转载请声明来源钻瓜专利网。