[发明专利]一种词库创建方法和系统,及相应的单词查询方法和系统有效
申请号: | 200910203741.9 | 申请日: | 2009-06-10 |
公开(公告)号: | CN101582091A | 公开(公告)日: | 2009-11-18 |
发明(设计)人: | 刘志芳 | 申请(专利权)人: | 凌阳科技股份有限公司;北京北阳电子技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 | 代理人: | 龙 洪;霍育栋 |
地址: | 台湾省新竹科*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 词库 创建 方法 系统 相应 单词 查询 | ||
技术领域
本发明涉及一种词库创建方法和系统,及相应的单词查询方法和系统。
背景技术
对于电子词典来说,一般在用户输入单词的过程中,会利用输入单词的部分内容来查询单词的相关内容。每当用户输入一个待查单词的一个字母时,电子词典就必须动态执行一遍查询动作。因此查询动作的快慢势必影响到电子词典的整体性能。
目前,电子词典进行查询的方法有很多,用索引结构进行查询是较为常见的方法,其中词典树索引和基于单词词头的两级索引最为常用。词典树索引,是利用了完整的满N叉树结构,因此单词可以直接定位,但这种结构使用大量无用结点,造成空间的浪费。基于单词词头的两级索引,由于要满足检索库中每个元素的大小一致特点,要求每个单词的词头扩展到最长单词词头的长度,所以造成空间的浪费。
公开日为2008年8月27日,申请号为200810027416.7的中国专利申请公开了一种适用于移动设备的电子词典词库结构。参见图1,它由两级索引和信息层组成:第一级索引的索引单元由单词的首字母和指向第二级索引的指针组成;第二级索引的索引单元以单词词头的开头多个字母和指向信息层的指针组成;信息层单元由单词的词头和音标、解释、例句等所有最终展现给用户的信息组成。该方法存在以下不足:1、在有限的内存空间下可检索的单词信息量少,在内存中第一、二级的查找只能是模糊查询,对要查询的目标单词的定位主要依靠未载入内存的信息层的查找;2、信息层的顺序查找无法快速定位单词。
在内存空间使用有限的条件下,在缩短查询时间的前提下,如何控制索引结构层的大小,节省内存空间的使用,成为电子词典的一个研发方向。
以上是以电子词典为例,在其他的需要进行单词查询的应用中,也存在同样的问题。
发明内容
本发明要解决的技术问题是提出一种更少地占用内存空间的词库创建方法和系统。
为了解决上述技术问题,本发明提供了一种词库创建方法,包括:
将要写入单词库的每一单词的组成字母分为N个字母组,将单词库分为N个区块,第n个区块包括多个n级索引单元,构成N级索引结构;
在各个n级索引单元中分别存储单词库中单词的第n个字母组的信息并按照字母组从小到大的顺序排列,第2~N个区块中对应于前一级同一索引单元的一个或多个索引单元为同组的索引单元,N≥2,n=1,2,...N;
其特征在于:
将单词分成的N个字母组中,第n’个字母组之前的字母组定长,第n’个字母组及之后的字母组不定长,第n’级索引单元与单词库中的单词一一对应,如第j个单词与第j-1个单词的第n’个字母组之前的字母组均相同且从第n’个字母组的首字母开始连续相同的字母数为Rj,则第j个n’级索引单元存储的第n’个字母组的信息用数字Rj加该字母组余下字母的形式表示,否则全用字母形式表示,2≤n’≤N,Rj≥2或1,j=2,3,...J,J为单词库包含的单词数。
进一步地,上述词库创建方法还可具有以下特点:
N=3,n’=2,每一单词的组成字母分为三个字母组:词头、词中和词尾,词头为单词的头P个字母,词中为单词的第P+1~P+Rj+Q-1个字母,词尾为词中后余下的字母,Rj为本单词与词头相同的上一单词从第P+1个字母开始连续相同的字母数,P=1~3,Q=2~4;
单词库分为第一区块、第二区块和第三区块,第一区块的一级索引单元存储单词的词头,占P字节;第二区块的二级索引单元存储数字加字母形式 或者字母形式的词中信息,占Q字节;第三区块的三级索引单元存储单词的词尾并用结束符分隔,不定长;将字母组写入定长的索引单元时单词字母不足时用填充字符填充;第一区块保存有每个一级索引单元对应的第一个二级索引单元和第一个三级索引单元的地址信息。
进一步地,上述词库创建方法还可具有以下特点:
P=2,Q=2,Rj=2~9,且单词库的三个区块中只有第一区块和第二区块是在内存中创建的。
如权利要求23所述的词库创建方法,其特征在于:
N=n’=3,每一单词的组成字母分为三个字母组:词头、词中和词尾,词头为单词的头P个字母,词中为单词的第P+1~P+Q个字母,词尾为词中后余下的字母,P=1~3,Q=1~3;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凌阳科技股份有限公司;北京北阳电子技术有限公司,未经凌阳科技股份有限公司;北京北阳电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910203741.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:料理机用断电保护结构
- 下一篇:简易防盗报警器