[发明专利]一种利用部分标注集的自训练神经网络分词模型有效

申请号：	202010159438.X	申请日：	2020-03-09
公开（公告）号：	CN111507103B	公开（公告）日：	2020-12-29
发明（设计）人：	张旻;黄涛;姜明;汤景凡	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06N3/04;G06N3/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种利用部分标注训练神经网络分词模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种利用部分标注集的自训练神经网络分词模型。本发明首先结合正向最大匹配算法，设计了一种通过词典和无标注集获得人工部分标注集的方法。然后，本发明通过修改损失函数，将有标注集和部分标注集共同用于训练基于双向循环神经网络的中文分词模型。最后，本发明利用自训练思想，设计了分词准确率置信度和差异置信度，迭代地将部分标注集转化为有标注集，不断优化基于双向循环神经网络的中文分词模型，从而使最终的模型在无标注数据领域能取得较好的分词效果。本发明不但能解决训练集不足以及跨领域分词问题，而且可以避免耗费人力进行数据集标注。

技术领域

本发明涉及中文分词任务，具体来讲是一种利用部分标注集的自训练神经网络分词模型，属于自然语言处理技术领域。

背景技术

近几年，基于深度神经网络的中文分词模型在分词准确率上取得了突破性的进展。然而，这类模型非常依赖有标注的数据集。当有标注集数量不足，或者训练集与测试集属于不同领域时，模型的分词准确率都会大幅下降。目前，为了解决训练集不足和模型的跨领域问题，已经有很多方法被提出。这些方法大多使用了词典、无标注数据集等额外资源。然而，部分标注集作为另一种额外资源，却很少被用于中文分词中。部分标注集是指在一个文本序列中，已经有部分词汇被确定切分好了。现存的使用部分标注集的方式主要是修改损失函数。另外，前几年也有人利用部分标注集来自训练中文分词感知机模型。关于如何利用部分标注集来自训练基于深度神经网络的中文分词模型还没有人研究过。

发明内容

本发明针对基于深度神经网络的中文分词模型存在的训练集不足和跨领域分词问题，提出了一种利用部分标注集的自训练神经网络分词模型，以解决上述分词问题。

一种利用部分标注集的自训练神经网络分词模型，包括如下步骤：

步骤(1)利用基于词典的字符串匹配算法，从无标注集中获取部分标注集。

步骤(2)通过改进损失函数，利用有标注集和部分标注集共同训练基于双向循环神经网络(Bidirectional Long Short Term Memory,BiLSTM)的中文分词模型。

步骤(3)利用基于BiLSTM的中文分词模型对部分标注集进行分词标注。

步骤(4)计算每个序列的分词准确率置信度和差异置信度。

步骤(5)将满足置信度条件的部分标注集转为有标注集。迭代步骤(2)-步骤(5)直到k次。

进一步的，所述的步骤(1)中利用基于词典的字符串匹配算法，从无标注集中获取部分标注集的过程如下：

1.1利用词典最大正向匹配算法，将匹配到的领域特殊词汇以及长度超过4的词汇打上确定标注。

1.2对于一个文本序列，根据其中确定标注的词汇，划分出多个未切分文本片段。

1.3对于每个未切分文本片段中的第i个汉字c_i，计算它的n-grams窗口词汇。