[发明专利]基于BERT的自适应分层输出的中文分词方法在审
申请号: | 202110617100.9 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113095079A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 李寿山;俞旸;张栋;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06F16/35 |
代理公司: | 北京金讯知识产权代理事务所(特殊普通合伙) 11554 | 代理人: | 黄剑飞 |
地址: | 215006*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 自适应 分层 输出 中文 分词 方法 | ||
1.一种基于BERT的自适应分层输出的中文分词方法,其包括:
获取多组已标注的样本数据,每份样本数据包含一句以词语为单位间隔开的中文文本;
对所述样本数据进行预处理,得到预处理后的文本序列和标签序列;
将所述预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练,得到主干模型;
冻结所述主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;
根据预设的速度调节方法,使用所述蒸馏模型对输入数据生成中文分词结果。
2.根据权利要求1所述的方法,其中对所述样本数据进行预处理包括:
解析所述以词语为单位间隔开的中文文本中字符在其所在词语中的位置,位置分为词首、词中、词尾、单独成词4种;
为每个字符打上对应的位置标签,即B(词首)、M(词中)、E(词尾)、S(单独成词)中的一种,得到所述预处理后的标签序列;
去除所述以词语为单位间隔开的中文文本中的空格,得到所述预处理后的文本序列。
3.根据权利要求1所述的方法,其中所述预设的网络模型,包括:
BERT-base网络、与所述BERT-base网络相连的多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
4.根据权利要求1所述的方法,其中所述预设的分类器模型,包括:
多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
5.根据权利要求1所述的方法,其中所述预设的损失函数为:
其中,为文本序列,为标签序列,为中的字符,为标签集合(包含B、M、E、S的集合),为中的标签,表示字符为标签的真实概率,取值为0或1,表示模型将字符判断为标签的概率。
6.根据权利要求1所述的方法,其中所述预设的速度调节方法包括:
设定一个取值在0到1之间的阈值,若输入数据所在的当前层分类器给出的结果的不确定度小于该阈值时,则直接在该层输出结果,而不继续通过后续的模型。
7.根据权利要求6所述的方法,其中所述模型结果的不确定度通过下式表示:
其中,为文本序列,为中的字符,为标签集合(包含B、M、E、S的集合),为中的标签,表示第层的分类器将字符判断为标签的概率。
8.根据权利要求1所述的方法,其中所述方法还包括:
在训练得到所述主干模型和蒸馏模型后,使用测试集对所述主干模型和蒸馏模型进行测试,以确定所述主干模型和蒸馏模型的性能。
9.根据权利要求1所述的方法,其中所述将预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述样本数据的标签结果对所述网络模型进行监督训练,得到主干模型之前,还包括:
通过BERT-base预训练模型初始化参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110617100.9/1.html,转载请声明来源钻瓜专利网。