[发明专利]多级关联存储结构及其存储方法无效
申请号: | 200610095927.3 | 申请日: | 2006-06-23 |
公开(公告)号: | CN101093496A | 公开(公告)日: | 2007-12-26 |
发明(设计)人: | 龚韵强;李金男 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陆嘉 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多级 关联 存储 结构 及其 方法 | ||
技术领域
本发明涉及存储结构和存储方法,更具体地说,涉及一种用于以符合语义的方式保存中文语句的多级关联存储结构及其存储方法。
背景技术
众所周知,中文是使用人口数量极大的语言,因此,使用中文的地区的计算机使用量也是十分巨大的。当使用计算机时,人们总是希望使用自己的习惯的语言,比如母语来进行计算机的操作。于是,在计算机上显示、输入并处理中文成为了一项重要的内容。
目前,计算机上所使用的主要的操作系统和软件都是基于英语进行开发的,比如进行语言输入时,输入工具,比如键盘可以直接用来输入英文字母组成英文单词,而对于中文输入,必须采用一定的输入法才能实现输入。为了提高输入的速度和效率,在进行语言输入时常常会采用一定的输入法,输入法会与某个语言模型相关,语言模型中记录了使用该种语言的习惯,比如常用的词汇、词组、短语、句式等等。在用户从输入设备进行输入时,输入法会根据已经输入的内容在相关的语言模型中进行搜索,以推测用户接下来准备要输入的内容,如果输入法根据语言模型的数据判断用户接下来将要输入某个特定字的可能性高于一预定值,输入法会将该字直接显示在屏幕上,从而节省用户输入的时间。
对于英语输入,相对比较容易实现,因为每一个英文字母都有对应的ASCII代码,对于检索和匹配都比较容易。比如,用户首先输入字母“I”,之后又输入“a”,此时,输入法会在相关的语言模型的数据库中搜寻与“a”相关的单词以及与“I”相关的句式,比如,最后的结果是句式“I am...”出现的可能性最高并且高于预定的值,那么该输入法会在用户进行下一步输入之前首先在字母“a”后面显示“m”,如果这正是用户想要输入的,就可以节省用户的时间,提高输入的效率。
由此可见,输入法根据语言模型来预测后一个将要输入的字母的方法的目的是用来提高输入的效率和速度,因此,它必须要符合两个要求:
1)具有足够的检索速度,至少要在用户输入下一个字母之前成功得到检索的结果,否则就达不到提高输入速度的目的;
2)具有足够的检索准确度,如果输入法选择的字母经常出现错误,那么用户还需要将其删除并重新输入,这反而会降低输入的效率。据有足够检索准确度的前提是具有足够大的数据库供检索并且,最好该数据库是可以扩展的,以应对新词汇、新句式出现的可能性。
对于上述两个要求,中文输入就有些难以做到了。中文和英文的语法结构和字结构都不相同。中文字不是由字母组合而成,更加没有现成的类似ASCII代码的代码来表示中文字,因此,对于中文字的检索比英文字母的检索要困难地多。然而,更大的困难来自于如何预测下一个要输入的字是什么,中文语句通过语义分割来使得中文语句具有特定的含义,有时,同样的一些中文字,将它们以不同的短语组合会具有不同的意思,这就给建立语言模型和根据语言模型进行搜索带来了很大的困难。要实现相对比较准确地预测,就需要很大容量的中文语言数据库,但是,对于庞大的中文语言数据库进行检索是十分耗时的。由于上述的原因,目前的中文输入法尚未达到上述的两个要求,难以做到兼顾检索的速度和准确度。
考虑到计算机处理数据的方式和中文语句的特点,本发明旨在提供一种新的保存与中文语句及语言库相关的信息的方法,使得检索和匹配中文字或者句子的速度和准确率都得到提高,从而提高中文输入的速度和效率。
发明内容
本发明旨在提供一种适用于保存中文语言库信息的存储结构和存储方法,使得中文输入的速度和效率都得到提高。
根据本发明的第一方面,提供一种多级关联存储结构,包括一级以上的存储结构,每一级存储结构与至少一级其他存储结构相关联。每一级存储结构可包括子结构,子结构用于实现不同级的存储结构之间的关联。子结构可以包括下列的内容:标示子结构,作为存储结构的标识符;关联子结构,建立与其他级的存储结构之间的关联;内容子结构,存储内容数据。
根据本发明的第二方面,提供一种多级关联存储结构,包括一级以上的存储结构,每一级存储结构包括至少一个存储单元,存储单元至少与一个其他级存储结构中的存储单元相关联。同样的,每一级存储结构中的存储单元也包括子结构,子结构用于实现不同级的存储结构中的存储单元之间的关联。每一级存储结构中的存储单元可包括:标识子结构,作为存储结构的标识符;关联子结构,建立与其他级的存储结构之间的关联;内容子结构,存储内容数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610095927.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于空-水复合冷却管的制作工艺
- 下一篇:一种知识库数据采集刷新的方法