[发明专利]英文电子词典数据中单词和音标的压缩方法无效
申请号: | 200510043866.1 | 申请日: | 2005-06-21 |
公开(公告)号: | CN1883959A | 公开(公告)日: | 2006-12-27 |
发明(设计)人: | 容毅 | 申请(专利权)人: | 容毅 |
主分类号: | B42D1/00 | 分类号: | B42D1/00 |
代理公司: | 济南金迪知识产权代理有限公司 | 代理人: | 宁钦亮 |
地址: | 250013山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 英文电子词典数据中单词和音标的压缩方法,根据字母串在英语词典的单词中出现的次数,排列出一个字母串表A,使表A中的每个字母串至少出现在词典的一个单词里并为每个字母串确定一个位置编码;对表A中的每个字母串a,找出其在字典中所有可能的发音的音标字母串集aB;统计表A中的每个字母串a所有可能发音的音标字母串在单词音标里的出现次数,得出每个字母串a所有可能发音的音标字母串在单词音标里出现的概率,并排成一个概率序列,概率大的在前;将每个字母串a和该字母串的位置编码以及这个字母串实际发音的音标字母串在概率序列中的位置分别存入英文电子词典。本发明方法可以得到非常高效的音标压缩,压缩比为15%-18%。 | ||
搜索关键词: | 英文 电子词典 数据 单词 音标 压缩 方法 | ||
【主权项】:
1、一种英文电子词典数据中单词和音标的压缩方法,其特征在于,采用如下压缩方法:(1)、根据字母串在英语词典的单词中出现的次数,排列出一个字母串表A,字典中的每个单词都可以由字母串表A中的一个或多个字母串连接组成,使得字母串表A中的每个字母串至少出现在词典的一个单词里,共有213个字母串;(2)、对字母串表A中的每个字母串a,找出其在字典中所有可能的发音的音标字母串集aB,如果字典里的一个单词d=a1 a2...an,则在每个aiB中可以找到一个音标字母串bi,i=1,...,n,使得d的音标为b1b2...bn;对字母串表A中任一字母串a的音标字母串集的任一音标字母串b,可在字典中找到一单词d=...a...,a在d中的发音为b;(3)、将字母串表A中的字母串当作字母重新拼写字典里的单词,并统计每个字母串在字典的单词中出现的概率,根据概率对每个字母串进行荷夫曼(huffman)编码,为每个字母串确定一个位置编码;(4)、统计字母串表A中的每个字母串a所有可能发音的音标字母串在单词音标里的出现次数,得出每个字母串a所有可能发音的音标字母串在单词音标里出现的概率,并将每个字母串a所有可能发音的音标字母串按照其在单词音标里出现的概率大小排成一个概率序列,概率大的在前;(5)、对一个单词的音标可通过单词字母串的位置编码和这个个字母串实际发音的音标字母串在概率序列中的位置来决定。(6)、每个位置码的概率为各字母串该位置上音标字母串在字典的音标中出现的概率总和(7)、将每个字母串a和该字母串的位置编码以及这个字母串实际发音的音标字母串在概率序列中的位置分别存入英文电子词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于容毅,未经容毅许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200510043866.1/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置