[发明专利]一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法有效
申请号: | 201811577667.2 | 申请日: | 2018-12-22 |
公开(公告)号: | CN109783809B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 周兰江;贾善崇 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/284;G06F40/289 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 老挝 汉语 篇章 对齐 语料 抽取 语句 方法 | ||
1.一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:包括如下步骤:
Step1,将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理,然后对这些对齐片段进行数据集划分,其中,已对齐的训练集占90%,乱序测试集占10%;
Step2,根据训练集以及测试集的句子,统计其中的互异的词组,以及每个词组出现的次数,经过word-embedding计算句子的词向量;
Step3,将Step2得出词向量作为LSTM算法的输入,即此时LSTM算法作为encoder部分,并将这些词向量作为encoder端的输入,encoder部分通过LSTM算法的初始化向量进行相似度计算;
Step4,每个词向量经由encoder部分输出,经过softmax函数,求出各个句子词向量的语义编码C,组成一个向量序列;
Step5,将Step4中得到的向量序列,作为decoder部分的初始输入,在decoder部分加入了Attention机制,解码的时候,每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理;所以在decoder部分中,每个时刻的输出作为下一时刻的输入,每一个输出,都能够做到充分利用输入序列携带的信息,以此类推,直到结尾;
Step6,经过encoder与decoder部分的相似度的计算,得出相似度最高的句子词向量,通过词向量来组成的句子,从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。
2.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:所述Step1中所述的对齐片段为经过噪声处理过后的对齐篇章语料。
3.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:所述Step2通过python编码,对最初的篇章级对齐语料进行句子分词,通过代码实现单个句子老挝语句子以及中文句子的分词,并统计词数。
4.根据权利要求1所述的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:所述Step3的具体步骤如下:
输入分出来的句子,将句子进行分词,经过word-embedding之后作为输入,输入到LSTM中,然后经过隐藏层得出隐藏层信息h1,h2,...,在这个时候encoder部分的第一个时刻的hidden-state假设为初始变量Z0,然后使用Z0和h1,h2,...进行相似度计算,得出各个时刻的a10,a20,a30,…aij,其中,a的下标i表示encoder中隐藏层信息的下标,a的下标j表示神经网络的初始变量的下标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811577667.2/1.html,转载请声明来源钻瓜专利网。