[发明专利]一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法有效
申请号: | 201811577667.2 | 申请日: | 2018-12-22 |
公开(公告)号: | CN109783809B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 周兰江;贾善崇 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/284;G06F40/289 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 老挝 汉语 篇章 对齐 语料 抽取 语句 方法 | ||
本发明公开了一种从老挝‑汉语篇章级对齐语料中抽取对齐语句的方法,属于自然语言处理和机器学习技术领域。本发明首先将篇章级对齐的语料使用python进行正则表达式的处理,去除掉噪音数据,并作为输入,由于老挝语与中文的句子排序是一致的,所以可以先将篇章级的语料处理为单个的对齐语句,之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词,将分词的此语作为LSTM的输入,通过保留LSTM编码器对输入序列的中间输出结果,训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联,从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。
技术领域
本发明涉及一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,特别是一种基于LSTM(Long Short-Term Memory长短期记忆网络)的从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,属于自然语言处理和机器学习技术领域。
背景技术
双语语料是统计机器翻译、跨语言检索、双语词典构建等研究领域的重要基础资源,双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。而平行句对的挖掘则是构建双语语料的关键技术,因而具有重要的研究价值。很多情况下,双语语料我们可以获得,但是得到的文本通常并不是以句子为单位对齐的,例如有些是以段落或者按照整篇文章来对齐的。这种情况下,就需要将这些不是以句子为单位对齐的语料整理成句子对齐格式,从而进行平行句对的抽取。
发明内容
本发明要解决的技术问题是:提供一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,用于解决从汉语-老挝语的对齐语料中抽取对齐语句,能够有效提高句子对齐的准确率。
本发明采用的技术方案是:一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法,包括如下步骤:
Step1,将汉-老双语语料先通过python代码使用正则表达式来进行噪声处理,然后对这些对齐片段进行数据集划分,其中,已对齐的训练集占90%,乱序测试集占10%;
Step2,根据训练集以及测试集的句子,统计其中的互异的词组,以及每个词组出现的次数,经过word-embedding计算句子的词向量;
Step3,将Step2得出词向量作为LSTM算法的输入,即此时LSTM算法作为encoder部分,并将这些词向量作为encoder端的输入,encoder部分通过LSTM算法的初始化向量进行相似度计算;
Step4,每个词向量经由encoder部分输出,经过softmax函数,求出各个句子词向量的语义编码C,组成一个向量序列;
Step5,将Step4中得到的向量序列,作为decoder部分的初始输入,在decoder部分加入了Attention机制,解码的时候,每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理;所以在decoder部分中,每个时刻的输出作为下一时刻的输入,每一个输出,都能够做到充分利用输入序列携带的信息,以此类推,直到结尾;
Step6,经过encoder与decoder部分的相似度的计算,得出相似度最高的句子词向量,通过词向量来组成的句子,从而完成从对齐的篇章级语料中抽取出汉-老双语对齐的语句。
具体地,所述Step1中所述的对齐片段为经过噪声处理过后的对齐篇章语料。
具体地,所述Step2通过python编码,对最初的篇章级对齐语料进行句子分词,通过代码实现单个句子老挝语句子以及中文句子的分词,并统计词数。
具体地,所述Step3的具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811577667.2/2.html,转载请声明来源钻瓜专利网。