[发明专利]一种基于端到端神经机器翻译的汉盲翻译方法及系统有效
申请号: | 202010409944.X | 申请日: | 2020-05-14 |
公开(公告)号: | CN111581991B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 苏伟;蔡川;许存禄;林和;吴尽昭;蒋琪 | 申请(专利权)人: | 兰州大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06F40/126;G06F40/157 |
代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 何志欣 |
地址: | 730000 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 端到端 神经 机器翻译 翻译 方法 系统 | ||
本发明涉及一种基于端到端神经机器翻译的汉盲翻译方法及系统,所述方法至少包括:基于端到端深度学习构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的端到端神经机器翻译模型;基于现存未经处理的汉语到盲文ASCII码转换的对照语料库训练所述端到端神经机器翻译模型。本发明基于端到端深度学习思想,直接绕过分词、标调、合成等多个翻译处理阶段,通过训练较大的端到端神经机器翻译模型进行翻译,能够一步直接得到汉语文本的盲文翻译结果,随着训练数据的不断增加,相比多阶段处理的翻译方式能够在短时间、低成本、系统复杂度降低的情况下显著提高盲文翻译的准确率。
技术领域
本发明属于自然语言处理技术领域和面向视力障碍者的人机交互技术 领域,尤其涉及自然语言处理技术领域中的汉语文本到盲文的自动转换技术 领域,特别是使用端到端深度学习和神经机器翻译实现汉语文本-盲文翻译技 术领域,具体涉及一种基于端到端神经机器翻译的汉盲翻译方法及系统。
背景技术
随着信息化水平的不断提高,信息技术在人们的工作、学习和生活中得 到了广泛地应用,而互联网也成为人们日常生活中的一个重要组成部分。网 络以一种便捷的方式为人们提供海量的信息资源,同时也为视力障碍者提供 一种前所未有的方式感知世界、认识世界、拉近与普通人的距离,使视力障 碍者以更平等的视角感受世界。互联网成为视力障碍者的视觉外延,不断地 消解城市、生活带给视力障碍者的阻碍。例如,视力障碍者可以借助汉盲翻 译系统通过手机的读屏功能(Voice Over)自由地使用打车软件,可以独立 使用淘宝、京东等软件进行网上购物,可以和健全的普通人进行网络游戏, 甚至可以写代码,从而拥有更多的就业选择。根据《中国互联网视障用户基 本情况报告》,视力障碍者互联网用户30岁以下的占比达到50%,有63% 的视力障碍者认为互联网的普及在一定程度上改变了他们的生活或命运。然 而,尽管现有的语音合成技术日趋成熟,网络上大量的文本资源可以通过语 音合成转换为音频文件,使得视力障碍者可以通过听觉获取文本信息。但是语音资源的存储需要大量的存储空间,进而在携带、查询等方面限制了视力 障碍者的使用。更重要的是,文字-语音之间的转换需要大量的时间成本,通 过语音获取信息的效率极其低下,因此对于视力障碍者来说,通过阅读获取 信息是相对更适合的方式。由此,需要为视力障碍者提供一种能够自动实现 汉语文本到盲文的翻译系统,便于视力障碍者获取互联网上的海量资源,也 便于视力障碍者实现人机交互。
盲文是视力障碍者阅读和获取信息的重要方式。中国盲文是指专为盲人 设计、供盲人使用、靠触觉感知的文字,是中国语言文字的重要组成部分。 汉语到盲文的翻译系统,是将已有的汉语资源转换为盲文资源,最终生成盲 文文档,可以供各种盲文系统使用。
中国盲文(Braille)体系,其最基本的盲文符号为盲文点字,由6个点 组成。根据点的填充与否可形成64种变化,即64个点符(盲符)。计算机 中可用盲文ASCII码表示盲文,即64个点符对应64个盲文ASCII码(单个 ASCII字符)。盲文ASCII码极大地方便盲文处理,并且是盲人点显器、盲文 刻印机等设备的标准输入。盲人点显器可以与计算机连接,接收计算机中的 盲文ASCII码,并将其在点显器面板上显示为相应的凸起点位,当收到新的 盲文ASCII码,可在面板上清除原来的点位重新显示新的点位。
虽然有了点显器,但还需要解决汉盲翻译的问题。由于汉语普遍存在一 音多字、一字多音等现象,使得汉语文本到盲文的转换并非简单的规则对应, 而需要综合考虑语法、语义等。更为重要的是,盲文具有分词连写机制,要 求将具备一定语义的词或短语用一个“空方”分割开来,以便于视力障碍者 理解。现有技术一般基于盲文分词连写的规则对汉语分词结果进行调整,从 而得到分词后的盲文。但是由于盲文分词连写规则一般与语义相关,而且具 有一定的主观性,因此由计算机自动完成时分词准确率较低,需要大量人工 修正,造成翻译效率低下,成本高昂。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州大学,未经兰州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010409944.X/2.html,转载请声明来源钻瓜专利网。