[发明专利]一种基于中文字符结构的序列标注方法在审
申请号: | 202011202507.7 | 申请日: | 2020-11-02 |
公开(公告)号: | CN112287640A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 盛伟国;张键 | 申请(专利权)人: | 杭州师范大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/151;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 311121 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 中文 字符 结构 序列 标注 方法 | ||
1.一种基于中文字符结构的序列标注方法,其特征在于包括如下步骤:
骤1:预处理数据,对无监督训练用语料与监督学习数据集文本进行处理,将字符转化为笔画序列,用空格将每个笔画序列隔开;
步骤2:将步骤1中处理好的语料放入上下文感知的双向LSTM网络中进行无监督训练,得到语言模型;
步骤3:利用迁移学习的方法将将步骤2中训练的语言模型对步骤1中处理好的数据集进行特征表示;
步骤4:通过步骤1中的监督学习数据集文本与步骤3中的数据集文本的特征表示对LSTM-CRF序列标注网络进行训练,并保存网络权重参数;
步骤5:利用步骤4所获得的网络权重参数进行序列标注。
2.根据权利要求1所述的一种基于中文字符结构的序列标注方法,其特征在于步骤1具体实现如下:
1-1.读取字符-笔画映射表;
1-2.使用字符-笔画映射表处理无监督训练用语料;
1-2-1.读取无监督训练用语料,将其拆分为以句子为单元的结构;
1-2-2.通过字符-笔画映射表将每个句子中的字符序列转化为以空格为分隔符的笔画序列;
1-2-3.将处理完的笔画序列保存到指定文件中;
1-3.使用字符-笔画映射表处理监督学习数据集;
1-3-1.读取监督学习数据集,将其拆分为以句子为单元的结构;
1-3-2.验证监督学习数据集中标签的最小单元,若最小单元是单词,将数据集中所有的词切分为字符,进行重新标注,若最小单元是字符,则不进行处理;
1-3-3.将处理好的数据集文本保存到指定文件中。
3.根据权利要求2所述的一种基于中文字符结构的序列标注方法,其特征在于步骤2具体实现如下;
2-1.将步骤1中处理后的无监督训练语料以句子为单位依次传入上下文感知的双向LSTM网络中,进行2轮迭代;
2-2.将2轮迭代后的LSTM网络参数保存到语言模型权重文件中。
4.根据权利要求3所述的一种基于中文字符结构的序列标注方法,其特征在于如所述的上下文感知的双向LSTM网络具体结构和实现如下:
该双向LSTM网络由前向LSTM网络与后向LSTM网络拼接而成;将中文字符序列通过字符-笔画映射表转化为对应的笔画序列后,将该序列传入LSTM网络;其中,前向LSTM网络提取笔画序列结束时的向量,后向LSTM网络提取笔画序列前的向量,将两个单向网络的特征向量进行拼接,拼接后的向量作为该笔画序列对应字符的最终特征。
5.根据权利要求3或4所述的一种基于中文字符结构的序列标注方法,其特征在于步骤3具体实现如下:
3-1.加载步骤2中训练完成的语言模型权重文件;
3-2.加载步骤1中处理完成的监督学习数据集;
3-2-1.分别加载数据集中的文本数据部分与标注标签部分;
3-2-2.将加载的文本数据利用语言模型将文本数据转化为包含语义信息的特征向量;
3-2-3.将获得的特征向量与对应的标注标签进行关联,获得数据集特征表示;
3-2-4.将所有获得数据集特征表示按8:1:1的比例进行切分,分成训练集、验证集和测试集。
6.根据权利要求5所述的一种基于中文字符结构的序列标注方法,其特征在于步骤4具体实现如下:
4-1.将步骤3中分割的训练集中关联后的特征向量和标注标签以句子为单位传入LSTM-CRF网络中进行标签特征提取;
4-2.利用步骤3中分割的验证集进行损失计算与性能验证;
4-3.迭代操作步骤4-1与4-2,直至步骤4-2中计算的损失连续5次迭代不下降;
4-4.终止迭代,保存LSTM-CRF网络模型权重参数。
7.根据权利要求6所述的一种基于中文字符结构的序列标注方法,其特征在于步骤5具体实现如下:
5-1.加载步骤4中保存的LSTM-CRF模型权重参数;
5-2.利用字符-笔画映射表处理待标注新文本;
5-2-1.将待标注新文本切分成字符序列,每个字符之间用空格分隔;
5-2-2.将分隔之后的待标注新文本通过字符-笔画映射表转化为以空格为分隔符的笔画序列;
5-3.将分隔完的笔画序列输入步骤3保存的语言模型中获得特征向量;
5-4.将该特征向量利用步骤4中保存的LSTM-CRF网络模型权重参数进行序列标注,得到预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011202507.7/1.html,转载请声明来源钻瓜专利网。