[发明专利]一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法有效

申请号：	201811577667.2	申请日：	2018-12-22
公开（公告）号：	CN109783809B	公开（公告）日：	2022-04-12
发明（设计）人：	周兰江;贾善崇	申请（专利权）人：	昆明理工大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/253;G06F40/284;G06F40/289
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种老挝汉语篇章对齐语料抽取语句方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：包括如下步骤：

Step1，将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理，然后对这些对齐片段进行数据集划分，其中，已对齐的训练集占90％，乱序测试集占10％；

Step2，根据训练集以及测试集的句子，统计其中的互异的词组，以及每个词组出现的次数，经过word-embedding计算句子的词向量；

Step3，将Step2得出词向量作为LSTM算法的输入，即此时LSTM算法作为encoder部分，并将这些词向量作为encoder端的输入，encoder部分通过LSTM算法的初始化向量进行相似度计算；

Step4，每个词向量经由encoder部分输出,经过softmax函数，求出各个句子词向量的语义编码C，组成一个向量序列；

Step5，将Step4中得到的向量序列，作为decoder部分的初始输入，在decoder部分加入了Attention机制，解码的时候，每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理；所以在decoder部分中，每个时刻的输出作为下一时刻的输入，每一个输出，都能够做到充分利用输入序列携带的信息，以此类推，直到结尾；

Step6，经过encoder与decoder部分的相似度的计算，得出相似度最高的句子词向量，通过词向量来组成的句子，从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。

2.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：所述Step1中所述的对齐片段为经过噪声处理过后的对齐篇章语料。

3.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：所述Step2通过python编码，对最初的篇章级对齐语料进行句子分词，通过代码实现单个句子老挝语句子以及中文句子的分词，并统计词数。

4.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法，其特征在于：所述Step3的具体步骤如下：

输入分出来的句子，将句子进行分词，经过word-embedding之后作为输入，输入到LSTM中，然后经过隐藏层得出隐藏层信息h₁，h₂，...,在这个时候encoder部分的第一个时刻的hidden-state假设为初始变量Z₀，然后使用Z₀和h₁，h₂，...进行相似度计算，得出各个时刻的a₁₀,a₂₀,a₃₀,…a_ij,其中，a的下标i表示encoder中隐藏层信息的下标，a的下标j表示神经网络的初始变量的下标。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于昆明理工大学，未经昆明理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811577667.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种修正自然语言理解模块的方法、装置及电子设备
下一篇：一种文本处理方法、装置及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法有效

专利文献下载