[发明专利]日文网页自动判别方法无效
申请号: | 201010251575.2 | 申请日: | 2010-08-12 |
公开(公告)号: | CN102375818A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 陈运文;马飞涛;宋海涛 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 丁纪铁 |
地址: | 201203 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种日文网页自动判别方法,包括步骤:获取网页数据头和网页数据体;读出网页数据头中的编码字符串,对编码字符串进行数据归一化;确定编码字符串的类型;根据编码字符串的类型从网页数据体中抽取一采样文本;根据编码字符串的类型设置初始置信值;判断采样文本的各字符的字符编码是否属于日文编码表并计算连续属于日文编码表的字符段的长度,将字符段的长度除以采样文本的长度,得到确认比率;用初始置信值加上确认比率得到一网页编码置信值,当网页编码置信值大于1时,确定当前网页的语言类型为日文。本发明能对采用不同网页编码的日文网页进行自动识别,能较好的区分中文网页和日文网页,能提高日文网页识别的准确度。 | ||
搜索关键词: | 日文 网页 自动 判别 方法 | ||
【主权项】:
一种日文网页自动判别方法,其特征在于,包括如下步骤:步骤一、获取网页数据头和网页数据体;步骤二、读出所述网页数据头中的编码字符串,对所述编码字符串进行数据归一化,数据归一化包括步骤去除空格、将字符都转换为小写形式、去除所有中英文标点符号;步骤三、确定所述编码字符串的类型:当所述编码字符串数据归一化后为sjis、ujis、shiftjis、iso2022jp、eucjp、eucjap时为类型一;当所述编码字符串数据归一化后为gb、big、autocht时为类型二;当所述编码字符串数据归一化后没有字符时为类型三;步骤四、从所述网页数据体中抽取一采样文本;抽取方法为:当所述编码字符串为类型一时,抽取的采样文本长度为128字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本;当所述编码字符串为类型二时,抽取的采样文本长度为256字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为128字节的采样文本、再从所述网页数据体的128字节之后的中间位置处抽取长度为128字节的采样文本;当所述编码字符串为类型三时,抽取的采样文本长度为512字节,抽取方法为从所述网页数据体的第一个字符开始抽取长度为256字节的采样文本、再从所述网页数据体的256字节之后的中间位置处提出长度为256字节的采样文本;步骤五、设置初始置信值,设置方法为:当所述编码字符串为类型一时,所述初始置信值设置为0.98;当所述编码字符串为类型二时,所述初始置信值设置为0.5;当所述编码字符串为类型三时,所述初始置信值设置为0.3;步骤六、对所述采样文本的各字符进行字符编码是否属于日文编码表的判断,并将从第一个字符开始连续属于日文编码表的字符段的字符个数进行统计,并计算所述连续属于日文编码表的字符段的长度,将所述字符段的长度除以所述采样文本的长度,得到确认比率;步骤七、用所述初始置信值加上所述确认比率得到一网页编码置信值,当所述网页编码置信值大于1时,确定当前网页的语言类型为日文;当所述网页编码置信值小于等于1时,确定当前网页的语言类型不为日文。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010251575.2/,转载请声明来源钻瓜专利网。