[发明专利]日文网页自动判别方法无效
申请号: | 201010251575.2 | 申请日: | 2010-08-12 |
公开(公告)号: | CN102375818A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 陈运文;马飞涛;宋海涛 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 丁纪铁 |
地址: | 201203 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日文 网页 自动 判别 方法 | ||
技术领域
本发明涉及网页处理,特别是涉及一种日文网页自动判别方法。
背景技术
互联网正在以爆炸式的速度在全球发展,在互联网上,用户可以访问的网页数量也越来越多。其中,互联网访问的一个特点是用户可以在接入网络的任意一个终端上,访问到全世界各地的网页信息。而这些网页中,所使用的语言是多种多样的。包括中文、英文、日文等等各个民族所使用的语言。
对特定的用户来说,其访问网页是存在语言偏好的。例如,可能某些用户只需要访问用特定语言撰写的网页。以搜索引擎google为例,google给出了特定的语言选项,可以搜索特定语言的网页,对来自中国大陆地区的用户,一般是将语言选项选择为“简体中文网页”。而中文网页和日文网页存在很大的相似性,因为日文语言中也存在大量汉字,因此,如何对日文网页进行识别和区分,是必须解决的问题。
因此,对互联网上的网页来说,非常需要一种良好的系统,能够自动的对网页的语言类型进行识别。现有技术中网页是一个HTML(HyperText Mark-up Language)即超文本标记语言或超文本链接标示语言文件,HTML的结构包括头部(Head)即网页数据头、主体(Body)即网页数据体两大部分,网页数据头是指HTML标签中<Head>和</Head>之间的部分,网页数据体是指<Body>和</Body>之间的部分。
利用现有技术在进行日文网页识别时,还具有以下主要技术难点:一、网页本身编码方式复杂,由于历史原因,当今互联网上网页编码的方式极为复杂。对于日文网页来说,既可能采用国际通行的unicode编码方式,也可能会使用日文专用的编码方式。W3C(World Wide Web Consortium)组织制订了网页编码识别标准,在网页数据头的charset或encoding后,放置网页编码类型的标识字符串;涉及到中日文网页区分的字符串包括:日文专用编码方式:sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap;中文专用编码方式:gb2312、gbk、gb18030、big、autocht;以及W3C制定的,统一内码(unicode)的编码方式UTF-8。二、日语存在汉字,易与中文网页混淆。
发明内容
本发明所要解决的技术问题是提供一种日文网页自动判别方法,能对采用不同网页编码的日文网页进行自动识别,能较好的区分中文网页和日文网页,还能提高日文网页识别的准确度。
为解决上述技术问题,本发明提供的日文网页自动判别方法,包括如下步骤:
步骤一、获取网页数据头和网页数据体。
步骤二、读出所述网页数据头中的编码字符串,对所述编码字符串进行数据归一化,数据归一化包括步骤去除空格、将字符都转换为小写形式、去除所有中英文标点符号。读出所述编码字符串的方法为:找出所述网页数据头中的编码特征字符串,所述编码特征字符串为“encoding”或“charset”;抽取出所述编码特征字符串之后的“=”之后、“>”之前的字符串作为所述编码字符串。
步骤三、确定所述编码字符串的类型:当所述编码字符串数据归一化后为sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap时为类型一;当所述编码字符串数据归一化后为gb、big、autocht时为类型二;当所述编码字符串数据归一化后为空即没有字符时为类型三。其中类型一的字符串属于日文专用编码方式的标识字符串的归一化后的字符串;类型二的字符串属于中文专用编码方式的标识字符串的归一化后的字符串。
步骤四、从所述网页数据体中抽取一采样文本。抽取方法为:当所述编码字符串为类型一时,抽取的采样文本长度为128字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本;当所述编码字符串为类型二时,抽取的采样文本长度为256字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本、再从所述网页数据体的128字节之后的中间位置处抽取长度为128字节的采样文本;当所述编码字符串为类型三时,抽取的采样文本长度为512字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为256字节的采样文本、再从所述网页数据体的256字节之后的中间位置处提出长度为256字节的采样文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010251575.2/2.html,转载请声明来源钻瓜专利网。