[发明专利]一种利用部分标注集的自训练神经网络分词模型有效

专利信息
申请号: 202010159438.X 申请日: 2020-03-09
公开(公告)号: CN111507103B 公开(公告)日: 2020-12-29
发明(设计)人: 张旻;黄涛;姜明;汤景凡 申请(专利权)人: 杭州电子科技大学
主分类号: G06F40/289 分类号: G06F40/289;G06N3/04;G06N3/08
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 利用 部分 标注 训练 神经网络 分词 模型
【权利要求书】:

1.一种利用部分标注集的自训练神经网络分词方法,其特征在于包括如下步骤:

步骤(1)利用基于词典的字符串匹配算法,从无标注集中获取部分标注集;

步骤(2)通过改进损失函数,利用有标注集和部分标注集共同训练基于双向长短期记忆网络Bidirectional Long Short Term Memory,即BiLSTM的中文分词模型;

步骤(3)利用基于BiLSTM的中文分词模型对部分标注集进行分词标注;

步骤(4)计算每个序列的分词准确率置信度和差异置信度;

步骤(5)将满足置信度条件的部分标注集转为有标注集;

步骤(6)迭代步骤(2)-步骤(5)直到P次,P是一个人为设定的终止迭代条件;

步骤(1)中利用基于词典的字符串匹配算法,从无标注集中获取部分标注集的过程如下:

1.1利用词典最大正向匹配算法,将匹配到的领域特殊词汇以及长度超过4的词汇打上确定标注;

1.2对于一个文本序列,根据其中确定标注的词汇,划分出多个未切分文本片段;

1.3对于每个未切分文本片段中的第i个汉字ci,计算它的n-grams窗口词汇;

1.4利用窗口词汇给未标注汉字ci打上部分确定标注;

步骤(2)中通过改进损失函数,利用有标注集和部分标注集共同训练基于双向长短期记忆网络的中文分词模型的过程如下:

2.1利用有标注集训练基于BiLSTM的中文分词模型,交叉熵损失函数表示如下:

其中,yi表示输入序列的第i个确定标注,表示模型对输入序列的第i个预测标注,n表示输入序列的长度;

2.2利用部分标注集训练上述基于BiLSTM的中文分词模型,损失函数表示如下:

其中,N表示确定标注的索引号,|N|表示N的数量大小;yi表示输入序列在索引为i的位置的确定标注;表示模型对输入序列索引为i位置的预测标注;M表示部分确定标注的索引号,||M||表示其中表示L0正则化;表示输入序列索引为j位置的部分确定标注;表示模型对输入序列索引为j位置的预测标注;

步骤(4)中计算每个序列的分词准确率置信度和差异置信度的过程如下:

4.1设第i个汉字的部分确定标注为(Bi,Mi,Ei,Si),其中Bi,Mi,Ei,Si的值为0或1;设模型对第i个汉字的预测概率为其中

计算每个序列的分词准确率置信度:

上式中,booli表示一个布尔类型的值;max_index表示计算四个标注中最大值的位置索引的集合;若booli=true,则预测概率中最大值的位置索引集合是部分确定标注(Bi,Mi,Ei,Si)中最大值的位置索引集合的子集;

上式中Ppl表示分词准确率置信度,S表示一个序列;

4.2对于序列的差异置信度,首先按照部分确定标注(Bi,Mi,Ei,Si)中1的个数,计算出差异均值θk;因为部分确定标注中1的个数只可能为2,3,4,所以k取值为2,3或4;

booli,k=(sum(Bi,Mi,Ei,Si)==k)booli (5)

上述两个式子中,L表示所有序列的总个数;sum(Bi,Mi,Ei,Si)表示(Bi,Mi,Ei,Si)中1的个数;表示保留可能标注的位置的值;表示将中最大值与第二大值相减所得的值;

一个汉字的预测标注是否满足差异置信度,表示如下:

最后,一个序列S的差异置信度计算如下:

步骤(5)中,将满足置信度条件的部分标注集转为有标注集的过程如下:

5.1选取分词准确率高的前m条部分标注集序列;m根据部分标注集规模来选取;

5.2在前m条部分标注集序列中选取差异置信度高的前25%的部分标注集;

5.3对于筛选出的部分标注集,转为有标注集;

具体:确定标注的位置采用最初构造部分标注集时的标注,部分确定标注的位置根据模型输出的四维向量来确定,将四者最大值置为1,其余置为0;

5.4将新的有标注集加入原始有标注集,并在部分标注集中剔除已转化的部分。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010159438.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top