[发明专利]一种基于多模型组合神经网络的老挝语分词方法在审
申请号: | 201910201435.5 | 申请日: | 2019-03-18 |
公开(公告)号: | CN110083824A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 周兰江;谭琪辉;张建安;周枫 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多模型组合神经网络的老挝语分词方法,属于自然语言处理和机器学习技术领域。本发明基于双向长短期记忆(Bi‑LSTM)神经网络结合attention模型和CRF模型,首先在待分词的老挝语料上进行字向量训练;然后引入去噪机制对输入的字嵌入量进行过滤调整;将过滤后的字嵌入向量输入Bi‑LSTM神经网络进行编码并输出音节序列,根据老挝语音节拼写规则将音节序列表示成特征词向量;引入attention模型对Bi‑LSTM网络的输入输出之间的相关性进行重要度计算,获取有效的老挝语词向量特征;最后由CRF层解码输出概率最大的标签序列,使用4词位标注集表达文本的词位信息。利用改进的attention‑Bi‑LSTM‑CRF神经网络建立的老挝语分词模型,可有效对老挝语进行分词。 | ||
搜索关键词: | 神经网络 分词 老挝语 模型组合 音节序列 向量 嵌入 过滤 机器学习技术 自然语言处理 解码 输出 标签序列 输出概率 向量特征 向量训练 特征词 位信息 重要度 引入 拼写 去噪 语料 标注 文本 语音 改进 网络 | ||
【主权项】:
1.一种基于多模型组合神经网络的老挝语分词方法,其特征在于:包括如下步骤:Step1、将老挝语分词语料预处理后进行数据集划分,随机抽取90%作为训练集,10%数据作为测试集;Step2、将待分词的老挝语料上进行文本向量化,将文本中的每一个字映射成一个固定长度的短向量,以作为当前字的特征向量表示;Step3、引入去噪机制对输入的字嵌入量进行过滤调整;Step4、Bi‑LSTM模型对过滤后的字向量片段进行编码并输出具有上下文语义特征的老挝语音节序列;根据老挝语音节拼写规则将音节序列表示成特征词向量;Step5、引入attention模型对Bi‑LSTM网络的输入输出之间的相关性进行重要度计算,获取有效的老挝语词向量特征;Step6、将词向量特征输入CRF层,经过softmax变换,加入标签转移概率矩阵,选择词性概率分布中概率最大的标签序列作为输出,生成音节的标注标签序列,最后使用4词位标注集得到老挝语句子预测分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910201435.5/,转载请声明来源钻瓜专利网。