[发明专利]一种维-汉文可比语料自动获取方法在审

申请号：	201711342028.3	申请日：	2017-12-14
公开（公告）号：	CN108153835A	公开（公告）日：	2018-06-12
发明（设计）人：	米尔夏提·力提甫;吐尔根·依布拉音;卡哈尔江·阿布都热西提;艾山·吾买尔;买合木提·买买提;瓦热斯·帕尔哈提;王路路;古丽尼格尔·阿不都外力	申请（专利权）人：	新疆大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	北京彭丽芳知识产权代理有限公司 11407	代理人：	彭丽芳
地址：	830046 新疆维***	国省代码：	新疆;65
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语料自动获取分类器待检测文本离线训练扩展性覆盖面实时性准确率表现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种维‑汉文可比语料自动获取方法，包括如下步骤：获取多个维‑汉文可比语料，采用Adaboost方法对BP神经网络进行离线训练，得到一个分类器；通过分类器完成待检测文本内维‑汉文可比语料的获取。本发明实现了维‑汉文可比语料的自动获取，在语料覆盖面，实时性和扩展性方面都有较好的表现，且准确率较高。

技术领域

本发明涉及智能信息处理领域，具体涉及一种维-汉文可比语料自动获取方法。

背景技术

近几年来，随着互联网的蓬勃发展，越来越多的学者参与到了机器翻译的研究工作中。新疆地处亚欧大陆腹地，作为丝绸之路经济带核心区，在经济发展中扮演着重要的枢纽角色。新疆维吾尔自治区是多名族聚居的地区，发展名族语言机器翻译技术对新疆的互联网发展具有很大的助推作用。其中语料库作为基础资源，在机器翻译，跨语言信息检索，搜索引擎等领域发挥着重要作用。但是，由于双语平行语料本身就相对稀缺且不易获取，导致少数名族语言在语料库方面发展缓慢。可比语料库的提出，在一定程度上可以帮助语料库扩建，大大增加了获取非平衡双语语料的速度。同时，可比语料库对挖掘等价翻译句对，如未登录词的翻译，专业科技术语互译对抽取等研究也有很大帮助。因此，可比语料库的构建可以很好的帮助平行语料库进行扩展，为平行语料库的构建打下基础。

国内外先有的可比语料库中，大多是对文本提取特种值，对特征值进行计算相似比，但是单纯使用这种方法筛选出来的可比语料在精准度和筛选效率方面都不高。

发明内容

为解决上述问题，本发明提供了一种维-汉文可比语料自动获取方法，实现了维-汉文可比语料的自动获取，且准确率较高。

为实现上述目的，本发明采取的技术方案为：

一种维-汉文可比语料自动获取方法，包括如下步骤：

获取多个维-汉文可比语料，采用Adaboost方法对BP神经网络进行离线训练，得到一个分类器；

通过分类器完成待检测文本内维-汉文可比语料的获取。

优选地，所述分类器通过以下步骤获取：：

S1、通过BP算法对所获取的多个维-汉文可比语料进行一次训练，生成学习器；

S2、采用Adaboost方法对所得学习器进行3次迭代，分别得到弱学习器l₁(x)、l₂(x)、l₃(x)，然后进行加权输出一个用于维-汉文可比语料预测的分类器。

优选地，所述多个维-汉文可比语料为人工获取所得。

优选地，所述Adaboost方法具体包括如下步骤：