[发明专利]英文电子词典数据中单词和音标的压缩方法无效

专利信息
申请号: 200510043866.1 申请日: 2005-06-21
公开(公告)号: CN1883959A 公开(公告)日: 2006-12-27
发明(设计)人: 容毅 申请(专利权)人: 容毅
主分类号: B42D1/00 分类号: B42D1/00
代理公司: 济南金迪知识产权代理有限公司 代理人: 宁钦亮
地址: 250013山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 英文电子词典数据中单词和音标的压缩方法,根据字母串在英语词典的单词中出现的次数,排列出一个字母串表A,使表A中的每个字母串至少出现在词典的一个单词里并为每个字母串确定一个位置编码;对表A中的每个字母串a,找出其在字典中所有可能的发音的音标字母串集aB;统计表A中的每个字母串a所有可能发音的音标字母串在单词音标里的出现次数,得出每个字母串a所有可能发音的音标字母串在单词音标里出现的概率,并排成一个概率序列,概率大的在前;将每个字母串a和该字母串的位置编码以及这个字母串实际发音的音标字母串在概率序列中的位置分别存入英文电子词典。本发明方法可以得到非常高效的音标压缩,压缩比为15%-18%。
搜索关键词: 英文 电子词典 数据 单词 音标 压缩 方法
【主权项】:
1、一种英文电子词典数据中单词和音标的压缩方法,其特征在于,采用如下压缩方法:(1)、根据字母串在英语词典的单词中出现的次数,排列出一个字母串表A,字典中的每个单词都可以由字母串表A中的一个或多个字母串连接组成,使得字母串表A中的每个字母串至少出现在词典的一个单词里,共有213个字母串;(2)、对字母串表A中的每个字母串a,找出其在字典中所有可能的发音的音标字母串集aB,如果字典里的一个单词d=a1 a2...an,则在每个aiB中可以找到一个音标字母串bi,i=1,...,n,使得d的音标为b1b2...bn;对字母串表A中任一字母串a的音标字母串集的任一音标字母串b,可在字典中找到一单词d=...a...,a在d中的发音为b;(3)、将字母串表A中的字母串当作字母重新拼写字典里的单词,并统计每个字母串在字典的单词中出现的概率,根据概率对每个字母串进行荷夫曼(huffman)编码,为每个字母串确定一个位置编码;(4)、统计字母串表A中的每个字母串a所有可能发音的音标字母串在单词音标里的出现次数,得出每个字母串a所有可能发音的音标字母串在单词音标里出现的概率,并将每个字母串a所有可能发音的音标字母串按照其在单词音标里出现的概率大小排成一个概率序列,概率大的在前;(5)、对一个单词的音标可通过单词字母串的位置编码和这个个字母串实际发音的音标字母串在概率序列中的位置来决定。(6)、每个位置码的概率为各字母串该位置上音标字母串在字典的音标中出现的概率总和(7)、将每个字母串a和该字母串的位置编码以及这个字母串实际发音的音标字母串在概率序列中的位置分别存入英文电子词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于容毅,未经容毅许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200510043866.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top