[发明专利]藏文网页及其编码的识别方法无效
申请号: | 200710111099.2 | 申请日: | 2007-06-15 |
公开(公告)号: | CN101055593A | 公开(公告)日: | 2007-10-17 |
发明(设计)人: | 吴健;芮建武;刘汇丹 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所 | 代理人: | 余长江 |
地址: | 100080北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏文 网页 及其 编码 识别 方法 | ||
所述技术领域
本发明属于文字编码识别技术领域,尤其涉及一种藏文网页及其编码的识别方法。
背景技术
随着互联网的发展,网上的信息越来越多,这给人们的生活带来了极大的方便。而在海量的网络数据中找到我们需要的数据是一个很现实的问题,搜索引擎的出现解决了这个问题。最近两年,搜索引擎的发展如火如荼,涌现了不少的各有特色的中文搜索引擎,如百度、搜狗、酷讯等待。相比之下,作为一个少数民族语言,和藏文相关的搜索产品还未出现。
搜索引擎的功能模块一般可以分为前台和后台。前台提供和最终用户交互的界面。后台要不停地从网络上抓取信息,并经过一系列的处理,将数据存入到数据库中,以备搜索时使用。在后台数据处理的过程中,就包含网页编码的归一化处理,就是将各种不同编码的网页转换为同一种编码存放。要做编码转换,首先就要进行编码识别。
和中文相比,藏文信息处理的发展相对滞后,网络上藏文的网页比较少,而藏文编码如今还是“万马奔腾”的局面,总量并不多的藏文网页却包含了数十种不同的藏文编码。在藏文搜索引擎的后台处理过程中,就要从互联网上大量的英文、中文等各种语言的网页中识别出藏文的网页,识别出其所使用的藏文编码,然后进行编码转换。
在过去的几十年中,众多计算机和藏语文工作者做了大量的工作,成功研制了一些藏文字处理软件,这些藏文软件都是采用自定义编码,形成了藏文“万码奔腾”的局面。根据编码结构的差异,我们将这些编码分为三类:基于ASCII的藏文编码、基于GB2312的藏文编码和基于Unicode的藏文编码。
基于ASCII的藏文编码采用单个字节对藏文字符进行编码,可用编码空间为0x00-0xFF,除去有特殊含义的码点(控制字符等),实际可用的码点有222个;一些编码只用0x7F以下的码点进行编码,这样实际可用的码点只有94个。由于可用码点较少,一般使用多个字库实现,以一个码点代表多个藏文字符。
这类编码如表1所示:
表1基于ASCII的藏文编码
基于GB2312的藏文编码采用双字节对藏文字丁进行编码,首字节的最高位为1或者两个字节的最高位都为1,从而可以和英文并存。国内软件多采用这类编码,有的占用GB2312的10一15区或88-94区的空余码点,有的干脆占用汉字GB2312的15区至81区的某段码点,有的甚至占用了GBK汉字扩展区的码点,这类编码采用双字节进行编码,编码空间较大,一般用一个字库即可实现,如表2所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710111099.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:采用钝化与活化技术的三乙胺法冷芯盒树脂
- 下一篇:电梯厅门