[发明专利]基于BERT的自适应分层输出的中文分词方法在审

申请号：	202110617100.9	申请日：	2021-06-03
公开（公告）号：	CN113095079A	公开（公告）日：	2021-07-09
发明（设计）人：	李寿山;俞旸;张栋;周国栋	申请（专利权）人：	苏州大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F16/33;G06F16/35
代理公司：	北京金讯知识产权代理事务所(特殊普通合伙) 11554	代理人：	黄剑飞
地址：	215006***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 bert 自适应分层输出中文分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种基于BERT的自适应分层输出的中文分词方法，属于中文信息处理技术领域。该方法包括：对已标注的样本数据进行预处理，得到预处理后的文本序列和标签序列；将预处理后的文本序列输入预设的网络模型，并使用预设的损失函数和预处理后的标签序列对网络模型进行监督训练，得到主干模型；冻结主干网络模型参数，在模型的每一层后添加一个预设的分类器模型，逐层使用预设的损失函数和预处理后的标签序列对分类器进行监督训练，得到蒸馏模型；根据预设的速度调节方法，使用蒸馏模型对输入数据生成中文分词结果。相较于传统的BERT模型，可在不损失精度甚至提升精度的情况下，缩短模型推理时间。

技术领域

本申请涉及中文文本智能处理技术，更具体地说，本申请涉及一种基于BERT的自适应分层输出的中文分词方法。

背景技术

中文分词问题是一个基础而又重要的研究课题。现代许多自然语言处理领域的应用，如机器翻译、自动文摘、信息抽取、语音识别等，都建立在分词技术的基础上。在上述等诸多任务中，中文分词往往是第一步操作。因此，中文分词的质量好坏往往直接影响着后续工作或高层任务的性能表现。

目前，中文分词任务的处理思路主要有3种：基于词典的方法（机械分词）、基于传统机器学习的方法和基于深度神经网络模型的方法。现有的深度神经网络模型已可以在中文分词任务上取得较好的表现，但是由于模型运行速度慢，并没有得到大规模实际应用。

发明内容

本申请的目的是解决上述技术问题。本申请提供了一种基于BERT的自适应分层输出的中文分词方法，可以自适应地判断输入样本应该在网络的哪一层输出，而不必全部走完整个网络模型。相较于传统的BERT模型，可在不损失精度甚至提升精度的情况下，缩短模型推理时间。本申请提供如下技术方案：

获取多组已标注的样本数据，每份样本数据包含一句以词语为单位间隔开的中文文本；

对所述样本数据进行预处理，得到预处理后的文本序列和标签序列；

将所述预处理后的文本序列输入预设的网络模型，并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练，得到主干模型；

冻结所述主干网络模型参数，在模型的每一层后添加一个预设的分类器模型，逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练，得到蒸馏模型；

根据预设的速度调节方法，使用所述蒸馏模型对输入数据生成中文分词结果。