[发明专利]基于句子特征向量的汉越伪平行句对抽取的方法有效

申请号：	201910628354.3	申请日：	2019-07-12
公开（公告）号：	CN110489624B	公开（公告）日：	2022-07-19
发明（设计）人：	余正涛;黄继豪;线岩团;郭军军;翟家欣;文永华;高盛祥	申请（专利权）人：	昆明理工大学
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/953;G06F40/58;G06F40/211;G06F40/117;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于句子特征向量汉越伪平行抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及基于句子特征向量的汉越伪平行句对抽取的方法，属于自然语言处理技术领域。本发明首先收集并预处理汉越句对的平行与非平行的训练语料和测试语料，以及用于伪平行句对抽取的可比语料；标注汉越句法中差异大的词性；再在嵌入层中融入句子的外部特征与汉越句法差异特征；嵌入层的输出经过神经网络得到一个句子特征向量，再通过分类层的计算，训练伪平行语料抽取模型；使用训练好的汉越伪平行语料抽取模型在汉越可比语料中抽取汉越伪平行句对。本发明本发明能够有效地从汉越可比语料中抽取出汉越伪平行句对，且准确率高。

技术领域

本发明涉及基于句子特征向量的汉越伪平行句对抽取的方法，属于自然语言处理技术领域。

背景技术

基于数据驱动的机器翻译(统计机器翻译、神经机器翻译)对于用于训练模型的数据量有着更高的要求。尤其是神经机器翻译，在有大规模语料的机器翻译，如英-法、汉-英等的神经机器翻译中，已经取得十分不错的成绩。但同时，对于资源稀缺、语料规模小的神经机器翻译，如汉-越神经机器翻译，翻译性能并不十分理想。因此，如何抽取汉-越伪平行句对有着非常重要的应用前景

目前在利用神经网络结构抽取平行句对上，基于词嵌入在单语语料中抽取平行句对，提升了神经机器翻译性能，基于句向量筛选了领域外的和领域内相关的平行句对，提高了领域内的机器翻译性能。以上的方法都有效地抽取了伪平行句对，提高了机器翻译的性能，但是他们大多是从词的级别去比较两个句子是否平行，这种做法不容易捕捉句子本身的一些特征。

在网上可以爬取到大量的汉越可比语料，如汉语和越南语的维基百科数据。并且在这些可比语料中，存在汉越伪平行句对。因此，在给可比语料情况下，如何去从可比语料中得到伪平行句对成为任务的难点和关键技术之一。因此，本发明目的是解决如何从汉越可比语料中抽取汉越伪平行句对。判断两个汉越句子是否平行，主要是在汉越双语空间下比较句子的特征，句子特征向量往往能够包含句子的一些特征，提高判断汉越句对是否平行的准确率，所以本发明提出了基于句子特征向量的汉越伪平行句对抽取方法。

发明内容

本发明提供了基于句子特征向量的汉越伪平行句对抽取的方法，以用于解决汉越可比语料中抽取汉越伪平行句对，准确率不高的问题。

本发明的技术方案是：基于句子特征向量的汉越伪平行句对抽取的方法，所述方法的具体步骤如下：

Step1、语料收集与预处理：收集并预处理汉越句对的平行与非平行的训练语料和测试语料，以及用于伪平行句对抽取的可比语料；

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、从互联网上爬取一定规模的汉-越平行句对与不平行的汉-越句对作为汉-越伪平行句对抽取模型的训练数据，并且每个句对后都有一个是否平行的分类标签。从训练数据中提取一小部分作为测试集；再爬取可比语料；

Step1.2、对爬取的语料经过人工筛选再对其对进行位置标签，分句标签标记；再筛选可比语料，用于达到缩小模型的计算次数，减少了时间复杂度的效果。

所述Step1.2中，筛选可比语料的具体过程如下：

汉越伪平行语料抽取模型将伪平行句对抽取问题转化为一个二分类问题，汉越可比语料规模大，所以先将预训练好的汉语词嵌入投影到越南语词嵌入空间，以便在同一空间表示汉语和越南语；

公式1为句嵌入的表示，其中，|S|为句子的长度，是句子S第i个词在汉-越同一语言空间中的词嵌入；

S(x，y)＝Φ(x^emb，y^emb) (2)

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。