[发明专利]基于BERT的自适应分层输出的中文分词方法在审
申请号: | 202110617100.9 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113095079A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 李寿山;俞旸;张栋;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/33;G06F16/35 |
代理公司: | 北京金讯知识产权代理事务所(特殊普通合伙) 11554 | 代理人: | 黄剑飞 |
地址: | 215006*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 自适应 分层 输出 中文 分词 方法 | ||
本申请涉及一种基于BERT的自适应分层输出的中文分词方法,属于中文信息处理技术领域。该方法包括:对已标注的样本数据进行预处理,得到预处理后的文本序列和标签序列;将预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和预处理后的标签序列对网络模型进行监督训练,得到主干模型;冻结主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;根据预设的速度调节方法,使用蒸馏模型对输入数据生成中文分词结果。相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。
技术领域
本申请涉及中文文本智能处理技术,更具体地说,本申请涉及一种基于BERT的自适应分层输出的中文分词方法。
背景技术
中文分词问题是一个基础而又重要的研究课题。现代许多自然语言处理领域的应用,如机器翻译、自动文摘、信息抽取、语音识别等,都建立在分词技术的基础上。在上述等诸多任务中,中文分词往往是第一步操作。因此,中文分词的质量好坏往往直接影响着后续工作或高层任务的性能表现。
目前,中文分词任务的处理思路主要有3种:基于词典的方法(机械分词)、基于传统机器学习的方法和基于深度神经网络模型的方法。现有的深度神经网络模型已可以在中文分词任务上取得较好的表现,但是由于模型运行速度慢,并没有得到大规模实际应用。
发明内容
本申请的目的是解决上述技术问题。本申请提供了一种基于BERT的自适应分层输出的中文分词方法,可以自适应地判断输入样本应该在网络的哪一层输出,而不必全部走完整个网络模型。相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。本申请提供如下技术方案:
获取多组已标注的样本数据,每份样本数据包含一句以词语为单位间隔开的中文文本;
对所述样本数据进行预处理,得到预处理后的文本序列和标签序列;
将所述预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练,得到主干模型;
冻结所述主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;
根据预设的速度调节方法,使用所述蒸馏模型对输入数据生成中文分词结果。
可选地,其中对所述样本数据进行预处理包括:
解析所述以词语为单位间隔开的中文文本中字符在其所在词语中的位置,位置分为词首、词中、词尾、单独成词4种;
为每个字符打上对应的位置标签,即B(词首)、M(词中)、E(词尾)、S(单独成词)中的一种,得到所述预处理后的标签序列;
去除所述以词语为单位间隔开的中文文本中的空格,得到所述预处理后的文本序列。
可选地,其中所述预设的网络模型,包括:
BERT-base网络、与所述BERT-base网络相连的多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
可选地,其中所述预设的分类器模型,包括:
多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
可选地,其中所述预设的损失函数为:
其中,为文本序列,为标签序列,为中的字符,为标签集合(包含B、M、E、S的集合),为中的标签,表示字符为标签的真实概率,取值为0或1,表示模型将字符判断为标签的概率。
可选地,其中所述预设的速度调节方法包括:
设定一个取值在0到1之间的阈值,若输入数据所在的当前层分类器给出的结果的不确定度小于该阈值时,则直接在该层输出结果,而不继续通过后续的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110617100.9/2.html,转载请声明来源钻瓜专利网。