[发明专利]汉柯电子辞典及其自动转译汉柯语的方法有效
申请号: | 201110426747.X | 申请日: | 2011-12-19 |
公开(公告)号: | CN103164395B | 公开(公告)日: | 2017-06-23 |
发明(设计)人: | 尼加提·纳吉米;买合木提·买买提;帕肉克·司地克;马斌 | 申请(专利权)人: | 新疆信息产业有限责任公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30;G10L15/08 |
代理公司: | 乌鲁木齐合纵专利商标事务所65105 | 代理人: | 汤洁 |
地址: | 830011 新疆维吾尔自治区*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子辞典 及其 自动 转译 汉柯语 方法 | ||
技术领域
本发明属于机器翻译语言技术领域,涉及利用计算机软硬件使汉语和柯尔克孜语相互转译的语言转换技术,特别是汉柯电子辞典及其自动转译汉柯语的方法。
背景技术
在社会信息化的当代,人们对各类语种信息获取、查询、翻译提出了更快、更高的要求,随之而研制开发了各类电子辞典产品,大到含几十万词条、上万个媒体素材的电子多媒体百科全书,小到含几千词条的掌上快译通,受到广大用户欢迎,电子辞典被作为学习语言、翻译和快速查询的辅助工具。在国外机器翻译系统和自然语言处理系统的实用化进程中,机器辞典已俨然成为开发的焦点,越来越多的语言翻译技术专家把机器辞典的规模和质量看作是决定机器翻译系统和自然语言处理系统成败的关键,早在1986年日本通产省就出资1亿美元支持电子辞典(EDR)的一个9年的开发计划,欧共体也资助多项机器辞典的研究课题,其中包括ACQUILEX(The Acquisition of Lexical Knowledge)课题,其目标是通过多部机器可读辞典MRD(Machine Reading Dictionary)来自动获取词汇知识,以便建立支持自然语言处理的多语种词汇知识库LKB(Lexical Knowledge Base),在此基础上所开发的各语种的多部大型机器辞典,其种类包括基本辞典、术语辞典、搭配辞典、概念分类辞典、概念描写辞典、语法辞典等。目前,产品化的电子辞典种类繁多,如不列颠百科全书、柯普顿百科全书、ENCARTA等。
在我国,涉及机器翻译辞典方面的研究则始于二十世纪50、60年代,在改革开放之后得到了充分重视,二十世纪80年代后期,中文信息处理领域的专家开始了对机器辞典的研究,二十世纪90年代初,面向信息处理的机器辞典的研究正式列入国家七五、八五、九五计划,开展了诸如《信息处理用现代汉语词汇研究》、《基于配价的汉语语义辞典》、《现代汉语语法信息辞典》等基础性研究课题,在此基础上开发了《中国大百科全书》、《金山词霸》、《东方大典》等较成熟的信息产品,受到了广大用户的欢迎。
近年来,随着少数民族文字信息化领域的持续快速发展,在我国新疆,有关少数民族语言的电子辞典也有了比较大的发展,但大多数以现有普通的汉维电子辞典为主,并没有满足更广大用户的实际需求,更多支持少数民族语言翻译技术的水平存在着较大的缺陷。
发明内容
本发明的目的在于提供一种汉柯电子辞典,其结构合理,通用性强。
本发明的目的是这样实现的:一种汉柯电子辞典,由语种识别模块、检索模块、检索组合输出模块、显示模块、语音识别模块和语音输出模块组成,语种识别模块通过其相应接口连接显示模块的接口和检索模块的接口,检索模块通过其输出端接口对应连接检索组合输出模块的输入端接口,检索组合输出模块的输出端接口对应连接语音识别模块的输入端接口,语音识别模块通过其输出端接口连接语音输出模块的输入端接口。
本发明的目的还在于提供一种汉柯电子辞典自动转译汉柯语的方法,改变原先传统、普通汉语与柯尔克孜语互译的辞典技术,提高汉语和柯尔克孜语相互转译的效率,改进对汉语文字、柯尔克孜语文字进行语音放送的性能(柯尔克孜语简称为柯语或柯文)。
本发明的目的是这样实现的:一种汉柯电子辞典自动转译汉柯语的方法,其按序处理的步骤如下:
(Ⅰ)由显示模块1显示所输入的文字,构建取词窗口,语种识别模块2利用取词窗口通过屏幕取词的方法,获取与显示模块1显示的所输入文字相对应的输入字符编码区域,将所输入的文字与被存储的UNICODE标准编码字符集中的编码字符相比对,判断所输入文字的语种是汉语或柯语,再把已被识别出语种的所输入文字传至检索模块3;
(Ⅱ)检索模块3获取检索方式将被识别出语种的所输入文字与在寄存于存储器的基础语料库中并列存储的汉—柯语料库和柯—汉语料库中所存储的字符进行比对,以从基础语料库中检索出与被识别出语种的所输入文字的字符相同或相对应的字符组合,确认被识别出语种的所输入文字是已被存储在基础语料库中的已知单字或单词,或进一步主动完整汉语单字组合或单词字母组合,若不能从汉—柯语料库和柯—汉语料库中检索出与所输入文字相同或相对应的字符组合—汉语单字或柯语单词,则检索模块3判断被识别出语种的所输入文字是未知的,不能被语种识别模块2确认、接收;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆信息产业有限责任公司,未经新疆信息产业有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110426747.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:应用程序平台系统中推送应用程序的方法和装置
- 下一篇:数据展示方法和装置