[发明专利]藏文网页及其编码的识别方法无效

专利信息
申请号: 200710111099.2 申请日: 2007-06-15
公开(公告)号: CN101055593A 公开(公告)日: 2007-10-17
发明(设计)人: 吴健;芮建武;刘汇丹 申请(专利权)人: 中国科学院软件研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京君尚知识产权代理事务所 代理人: 余长江
地址: 100080北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 藏文 网页 及其 编码 识别 方法
【说明书】:

所述技术领域

发明属于文字编码识别技术领域,尤其涉及一种藏文网页及其编码的识别方法。

背景技术

随着互联网的发展,网上的信息越来越多,这给人们的生活带来了极大的方便。而在海量的网络数据中找到我们需要的数据是一个很现实的问题,搜索引擎的出现解决了这个问题。最近两年,搜索引擎的发展如火如荼,涌现了不少的各有特色的中文搜索引擎,如百度、搜狗、酷讯等待。相比之下,作为一个少数民族语言,和藏文相关的搜索产品还未出现。

搜索引擎的功能模块一般可以分为前台和后台。前台提供和最终用户交互的界面。后台要不停地从网络上抓取信息,并经过一系列的处理,将数据存入到数据库中,以备搜索时使用。在后台数据处理的过程中,就包含网页编码的归一化处理,就是将各种不同编码的网页转换为同一种编码存放。要做编码转换,首先就要进行编码识别。

和中文相比,藏文信息处理的发展相对滞后,网络上藏文的网页比较少,而藏文编码如今还是“万马奔腾”的局面,总量并不多的藏文网页却包含了数十种不同的藏文编码。在藏文搜索引擎的后台处理过程中,就要从互联网上大量的英文、中文等各种语言的网页中识别出藏文的网页,识别出其所使用的藏文编码,然后进行编码转换。

在过去的几十年中,众多计算机和藏语文工作者做了大量的工作,成功研制了一些藏文字处理软件,这些藏文软件都是采用自定义编码,形成了藏文“万码奔腾”的局面。根据编码结构的差异,我们将这些编码分为三类:基于ASCII的藏文编码、基于GB2312的藏文编码和基于Unicode的藏文编码。

基于ASCII的藏文编码采用单个字节对藏文字符进行编码,可用编码空间为0x00-0xFF,除去有特殊含义的码点(控制字符等),实际可用的码点有222个;一些编码只用0x7F以下的码点进行编码,这样实际可用的码点只有94个。由于可用码点较少,一般使用多个字库实现,以一个码点代表多个藏文字符。

这类编码如表1所示:

       表1基于ASCII的藏文编码

 编码名称 码点范围 音节点编码 LTibetan TCRC Old Sambhota New Sambhota TM TMW Tibword TibKey tsamkey SUZTIB UCHAN 0x21-0xFE 0x21-0xFE 0x21-0xFE 0x21-0x7E 0x21-0xFE 0x21-0x7E 0x21-0xFE 0x21-0xFE 0x21-0x7E 0x21-0xFE 0x21-0x7E 0x2D 0x2D 0x2D 0x2D 0xCD 0x2D 0x2D 0x2D 0x2E 0x2D 0x2D

基于GB2312的藏文编码采用双字节对藏文字丁进行编码,首字节的最高位为1或者两个字节的最高位都为1,从而可以和英文并存。国内软件多采用这类编码,有的占用GB2312的10一15区或88-94区的空余码点,有的干脆占用汉字GB2312的15区至81区的某段码点,有的甚至占用了GBK汉字扩展区的码点,这类编码采用双字节进行编码,编码空间较大,一般用一个字库即可实现,如表2所示:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710111099.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top