[发明专利]维吾尔语倒排索引文件的生成方法在审
申请号: | 201210579947.3 | 申请日: | 2012-12-28 |
公开(公告)号: | CN103902584A | 公开(公告)日: | 2014-07-02 |
发明(设计)人: | 尼加提·纳吉米;买合木提·买买提;帕肉克·司地克;马斌 | 申请(专利权)人: | 新疆电力信息通信有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 乌鲁木齐新科联知识产权代理有限公司 65107 | 代理人: | 祁磊 |
地址: | 830011 新疆维吾*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 维吾尔 语倒排 索引 文件 生成 方法 | ||
技术领域
本发明涉及语言信息处理技术,特别是维吾尔语倒排索引文件的生成方法。
背景技术
近年来,随着少数民族信息化领域的发展,在新疆的少数民族语言信息处理也有了比较大的发展,特别是维吾尔语信息处理方面词法分析,维吾尔语句子边界识别有了较好的研究成果和已实现的系统。这些技术为维吾尔语信息检索,维吾尔语机器翻译等领域的实际系统的实现打下了坚实的基础。
倒排索引在信息检索以及基于实例的机器翻译(Example Based Machine Translation,EBMT)中起到重要的作用。自从基于实例的翻译方法提出以来,找到相似实例句子已经成为该方法的一个研究重点。维吾尔语汉语基于实例的机器翻译中找维吾尔语相似实例也是个难点。维吾尔语属于阿尔泰语系突厥语族西匈语支,在结构特点上,属于黏着语。它是通过在词干上附加各种构词和构形词缀而改变词汇意义和语法意义的一种语言。这种特点对于维吾尔语倒排索引的创建带来了一定的困难。这困难主要在于维吾尔语词干上附加各种构词和构型词缀添加以后的维吾尔语单词形式各异,重复率低,不进行特殊处理的情况下,倒排索引庞大,无法满足快速找目的句子的目标。到目前为止还没有出现有关维吾尔语倒排索引文件生成工具,对其研究也处于试探阶段,更没有出现对倒排索引文件进行加密工具,对其研究还没有开始。
维吾尔语倒排索引的生成工具就是在上述背景下提出的,该工具解决了通用工具以及方法对维吾尔语不有效,甚至导致维吾尔语倒排索引存储空间的无限扩大问题,为实现维吾尔语检索系统、基于实例的维吾尔语机器翻译系统打下了良好的基础。该系统及其方法也可用于维吾尔语文本分类系统、维吾尔语问答系统、维吾尔语搜索引擎等系统。
发明内容
本发明的目的在于提供一种维吾尔语倒排索引文件的生成方法,实现了符合维吾尔语独特语言现象的维吾尔语倒排索引创建、维吾尔语倒排索引文件的输出、检查维吾尔语倒排索引文件的准确性、加密维吾尔语倒排索引以及对其检查准确性的功能,为实现维吾尔语基于实例的机器翻译系统的实现提供了基础性的帮助以及现成的工具,也为检索系统的实现提供了良好的现成工具,该工具及其方法也可用于维吾尔语问答系统、维吾尔语文本分类系统、维吾尔语搜索引擎等系统的基础部件的实现。
本发明的目的是这样实现的:一种维吾尔语倒排索引文件的生成方法,1.维吾尔语倒排索引的创建:为了提高基于实例的维吾尔语系统找相同实例句子的性能创建维吾尔语倒排索引,创建倒排索引时对维吾尔语句子的每一个单词进行词干提取;2. 输出创建好的维吾尔语倒排索引文件:为了不依赖数据库软件,独立的设计维吾尔语倒排索引文件结构,并将维吾尔语倒排索引输出到符合该该文件中;3.检查创建的维吾尔语倒排索引文件的准确性:为了保证提供可靠地倒排索引文件,对创建的倒排索引文件进行检查,确保数据的正确性,可靠性;4.加密维吾尔语倒排索引:为了防止非法人员的盗用稀缺的维吾尔语语料,对倒排索引文件进行加密,对维吾尔语倒排索引文件加密时,先对维吾尔语词干符合维吾尔语语言特征的字符替换,然后给特定的密钥进行加密;5.检查加密的维吾尔语倒排索引:对为了实际系统准确的解密并准去的使用解密以后的倒排索引文件信息,对加密的维吾尔语倒排索引文件进行检查,并输出检查结果供给使用者参考。
本发明涉及维吾尔语倒排索引,其包含维吾尔语倒排索引的创建、输出维吾尔语倒排索引文件、检查维吾尔语倒排索引的准确性、对维吾尔语倒排索引进行加密以及检查加密语解密的准确性,属于自然语言处理中的信息检索以及机器翻译领域。本发明不仅考虑了维吾尔语单词词频特征,对不同的单词给予不同的权值,且考虑了维吾尔语的黏着性,即对维吾尔语单词进行词干提取,这样可以避免倒排索引存储空间的无限扩展因而出现倒排索引无效的问题。而且对倒排索引的词干条目进行符合维吾尔语的语言特点的加密,解决稀缺的维吾尔语语料被非法人员的盗用,并分别对维吾尔语倒排索引文件、加密解密的维吾尔语倒排索引文件进行检查,确保生成的文件的可靠性,为实现基于实例的维吾尔语汉语机器翻译系统、维吾尔语检索系统且提高其效率提供了良好的基础。
本发明实现了符合维吾尔语独特语言现象的维吾尔语倒排索引创建、维吾尔语倒排索引文件的输出、检查维吾尔语倒排索引文件的准确性、加密维吾尔语倒排索引以及对其检查准确性的功能,为实现维吾尔语基于实例的机器翻译系统的实现提供了基础性的帮助以及现成的工具,也为检索系统的实现提供了良好的现成工具,该工具及其方法也可用于维吾尔语问答系统、维吾尔语文本分类系统、维吾尔语搜索引擎等系统的基础部件的实现。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆电力信息通信有限责任公司,未经新疆电力信息通信有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210579947.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法、信息处理设备及信息系统
- 下一篇:多用养殖水箱