[发明专利]一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法有效
申请号: | 201811577667.2 | 申请日: | 2018-12-22 |
公开(公告)号: | CN109783809B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 周兰江;贾善崇 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/284;G06F40/289 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种从老挝‑汉语篇章级对齐语料中抽取对齐语句的方法,属于自然语言处理和机器学习技术领域。本发明首先将篇章级对齐的语料使用python进行正则表达式的处理,去除掉噪音数据,并作为输入,由于老挝语与中文的句子排序是一致的,所以可以先将篇章级的语料处理为单个的对齐语句,之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词,将分词的此语作为LSTM的输入,通过保留LSTM编码器对输入序列的中间输出结果,训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联,从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。 | ||
搜索关键词: | 一种 老挝 汉语 篇章 对齐 语料 抽取 语句 方法 | ||
【主权项】:
1.一种从老挝‑汉语篇章级对齐语料中抽取对齐语句的方法,其特征在于:包括如下步骤:Step1,将汉‑老双语语料先通过python代码使用正则表达式来进行噪声处理,然后对这些对齐片段进行数据集划分,其中,已对齐的训练集占90%,乱序测试集占10%;Step2,根据训练集以及测试集的句子,统计其中的互异的词组,以及每个词组出现的次数,经过word‑embedding计算句子的词向量;Step3,将Step2得出词向量作为LSTM算法的输入,即此时LSTM算法作为encoder部分,并将这些词向量作为encoder端的输入,encoder部分通过LSTM算法的初始化向量进行相似度计算;Step4,每个词向量经由encoder部分输出,经过softmax函数,求出各个句子词向量的语义编码C,组成一个向量序列;Step5,将Step4中得到的向量序列,作为decoder部分的初始输入,在decoder部分加入了Attention机制,解码的时候,每一步都会选择性地从语义编码C的向量序列中挑选一个子集进行进一步的处理;所以在decoder部分中,每个时刻的输出作为下一时刻的输入,每一个输出,都能够做到充分利用输入序列携带的信息,以此类推,直到结尾;Step6,经过encoder与decoder部分的相似度的计算,得出相似度最高的句子词向量,通过词向量来组成的句子,从而完成从对齐的篇章级语料中抽取出汉‑老双语对齐的语句。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811577667.2/,转载请声明来源钻瓜专利网。