[发明专利]一种基于BiLSTM+CRF模型的老挝语词性标注方法在审
申请号: | 201811531266.3 | 申请日: | 2018-12-14 |
公开(公告)号: | CN109558569A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 周兰江;王兴金;张建安;周枫 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/27;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于BiLSTM+CRF模型的老挝语词性标注方法,它属于自然语言处理和机器学习技术领域。BiLSTM是基于LSTM结构,BiLSTM可以利用上下文信息来进行词性标注。将一句待词性标注的句子输入到BiLSTM中,BiLSTM通过计算可以输出句中每个词的词性概率分布,传统的做法可以挑选每个分布的最大概率词性,来作为词性标注结果。但这样没有考虑到词性之间的影响,比如:量词后不能接动词等。因此引入CRF模型来解决这个问题,可以将CRF模型接到BiLSTM的输出层。利用基于BiLSTM与CRF的老挝语词性标注模型,可以有效的对老挝语进行词性标注,因此本发明具有一定的研究意义。 | ||
搜索关键词: | 词性标注 词性 标注 机器学习技术 自然语言处理 上下文信息 概率分布 句子输入 最大概率 传统的 老挝语 输出层 输出 引入 研究 | ||
【主权项】:
1.一种基于BiLSTM+CRF模型的老挝语词性标注方法,其特征在于:包括如下步骤:Step1、BiLSTM+CRF模型的构建基于BiLSTM与CRF的老挝语词性标注模型,其包括五层:输入层、前向LSTM层、后向LSTM层、全连接层与CRF层;(1)输入层:输入层接收的数据是具有n个词的老挝句子W1…Wt…Wn,词在进入BiLSTM前需要转换为数字的形式才能进行计算,因此在输入层构建一个词向量矩阵,每个老挝词都可以在词向量矩阵中找到其对应的词向量,词向量的值代表该词的特征,词向量也将代表词输入到前向LSTM层、后向LSTM层中对应的LSTM,进行计算词信息;(2)前向LSTM层:前向LSTM层由LSTM构成,LSTM决定信息的保留、输出与删除,来自输入层老挝句子中每个词的词向量将按序输入到对应的LSTM中,LSTM按输入顺序正向连接,每个LSTM输出两部分词信息:前向状态信息FS及前向输出信息FH,信息都以矩阵的形式呈现,前向状态信息会一直在该层传递下去,参与下一个LSTM的计算,而前向输出信息将输出到全连接层计算词性概率分布;(3)后向LSTM层:后向LSTM层也是由LSTM构成,来自输入层老挝句子中每个词的词向量按序输入到对应的LSTM中,但LSTM按输入顺序逆向连接,每个LSTM输出两部分词信息:后向状态信息BS及后向输出信息BH,后向状态信息将一直在该层传递下去,参与下一个LSTM的计算,而后向输出信息将输出到全连接层计算词性概率分布;(4)全连接层:全连接层由简单的神经网络单元构成,每个单元接收的数据是由前、后向LSTM层输出的前向输出信息FH、后向输出信息BH,FH与BH在单元里经过计算,将得到词性概率分布;(5)CRF层:全连接层得到每个词的概率分布后,CRF模型利用这些分布为句子计算出最佳词性标注序列,CRF层在保证从每个分布中挑选较大概率词性的同时,也将考虑词性之间的相互影响;Step2、BiLSTM+CRF模型的训练训练BiLSTM+CRF模型使用的是老挝语篇章词性标注语料,即:多篇被标注词性的老挝语文章,训练首先使用基于句子级别的对数似然函数,来计算全连接层得到的词性概率分布与老挝语篇章词性标注语料中词性真实分布的差距,然后使用Adam算法来减小差距,以此训练BiLSTM+CRF模型的参数,直到模型达到稳定,即差距值接近0,模型达到稳定后,就可以得到基于BiLSTM与CRF的老挝语词性标注模型,将需要词性标注的句子输入到老挝语词性标注模型的输入层,CRF层就会输出句子中每个词的词性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811531266.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于CUDA的目标RCS计算方法
- 下一篇:句生成方法和设备