[发明专利]一种基于孪生循环神经网络的泰文句子切分方法有效

专利信息
申请号: 201911309244.7 申请日: 2019-12-18
公开(公告)号: CN111126037B 公开(公告)日: 2021-10-29
发明(设计)人: 线岩团;王红斌;余正涛;文永华;张志菊 申请(专利权)人: 昆明理工大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/30;G06F40/126;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 孪生 循环 神经网络 文句 切分 方法
【说明书】:

发明公开了一种基于孪生循环神经网络的泰文句子切分方法,属于句子切分领域。本发明方法不需要人工设计特征,也不依赖词性标注和句法信息。与已有方法相比,本发明所提出的方法更加简洁,句子切分效果也有了提升;本发明方法对空格前后的词序列进行编码获取句子切分的特征时,空格前和空格后的词序列使用相同的模型框架,并且共享了相同的参数,这样更好的考虑了空格前后词序列之间的可比性,同时缩减了参数,更有利于模型的训练;通过词嵌入和循环神经网络学习词序的特征表示有助于捕获句子中的隐含语义,从而提升句子切分的性能。

技术领域

本发明涉及一种基于孪生循环神经网络的泰文句子切分方法,属于句子切分领域。

背景技术

泰文很少使用标点符号,句子间没有明显的分隔符,为泰文词法分析、句法分析、机器翻译等自然语言处理任务带来了额外的困难。

泰文也有标点符号,在Unicode甚至提供了特殊的零宽度空格符(Zero-WidthSpace,ZWSP)用于分隔泰文词。然而,与英语不同的是,在实际应用中泰文很少使用标点符号,词语间通常也不用分隔符,而是用空格符分隔句子、短语和特殊词语,如称谓和姓名之间、标号和内容之间、括号和内容之间等。所以,泰文句子切分不能依靠标点符号,而必须充分考虑段落的上下文信息。

发明内容

本发明提供了一种基于孪生循环神经网络的泰文句子切分方法,以用于构建最优孪生循环神经网络模型用于泰文句子切分。

本发明的技术方案是:一种基于孪生循环神经网络的泰文句子切分方法,所述方法的具体步骤如下:

Step1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入,分别得到空格前后的词序列所对应的one-hot矩阵表示X;其中,孪生循环神经网络模型表示两个循环神经网络模型,X=[x1,x2,...,xt,…,xT],每个词对应的one-hot向量表示xt的维数为Nw维,T表示词序列中词的数量,Nw为词汇表的大小,即从语料中统计并去重后的词语数量;

Step2、将step1分别得到的空格前后的词序列所对应的one-hot矩阵表示X通过孪生循环神经网络模型中的嵌入层参数矩阵分别得到空格前后的词序列对应的词嵌入矩阵表示E;其中,E=WEX=[e1,e2,...,et,…,eT],et∈Rd,ed表示第t个词所对应的词嵌入表示,和Rd中的R表示实数域,d表示词序列中每个词所对应的词嵌入表示的维数;

Step3、采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后词序列中每个词所对应的词嵌入表示et进行编码,分别得到空格前后的词序列编码表示hl和hr;其中,hl表示空格前的词序列所对应的编码表示,hr表示空格后词序列所对应的编码表示;

Step4、将step3分别得到的空格前后词序列编码表示hl和hr通过孪生循环神经网络模型的隐含层综合学习,得到最终的编码向量表示h作为句子切分的特征;

Step5、在孪生循环神经网络模型的输出层采用sigmoid对step4得到的句子切分特征h进行二分类操作:

y=sigmoid(W2h+b2)

其中,y表示模型分类结果,W2是输出层的权重矩阵,b2是偏置矩阵;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911309244.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top