[发明专利]网页编码识别方法及装置有效
申请号: | 201410562477.9 | 申请日: | 2014-10-21 |
公开(公告)号: | CN104361021B | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 左景龙;范金松;田凡 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张所明 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 编码 识别 方法 装置 | ||
本公开是关于一种网页编码识别方法及装置,属于计算机网络领域。所述方法包括:加载网页数据,所述网页数据包括至少一个网页资源;检测所述网页资源是否为超文本标记语言HTML资源且声明了编码方式;若所述网页资源是HTML资源但未声明编码方式,则识别所述HTML资源的编码方式;采用与识别到的所述编码方式所对应的解码方式解码所述HTML资源。本公开解决了相关技术中网页编码中的“charset”字段漏写时,浏览器可能会显示乱码的问题;达到了即便网页资源中未声明编码方式,也能够正常解码网页资源并进行显示的效果。
技术领域
本公开涉及计算机网络领域,特别涉及一种网页编码识别方法及装置。
背景技术
随着网络技术的发展,用户使用终端中的浏览器来浏览网页是最常使用的一种功能。
由于网页数据可能采用不同的编码方式进行编码,浏览器首先需要根据网页数据中的“charset”字段来识别网页数据的编码方式,进而采用与该编码方式对应的解码方式对网页数据进行解码,然后对网页数据进行显示。但是由于网站搭建和网页编辑的技术越来越普及,很多技术人员开发的网页数据中会漏写或错写“charset”字段,此时,浏览器采用默认的解码方式解码,有可能会显示乱码。
发明内容
为了解决相关技术中网页编码中的“charset”字段漏写或者错写时,浏览器会显示乱码的问题,本公开实施例提供了一种网页编码识别方法及装置。所述技术方案如下:
根据本公开实施例提供的一种网页编码识别方法,该方法包括:
加载网页数据,网页数据包括至少一个网页资源;
检测网页资源是否为HTML资源且声明了编码方式;
若网页资源是HTML资源但未声明编码方式,则识别HTML资源的编码方式;
采用与识别到的编码方式所对应的解码方式解码HTML资源。
在一个实施例中,该方法还包括:
若网页资源是HTML资源但已声明编码方式,则检测已声明的编码方式是否为预设编码方式中的一种;
若已声明的编码方式不是预设编码方式中的一种,则识别HTML资源的编码方式;或,对已声明的编码方式进行自动纠错,得到自动纠错后的编码方式。
在一个实施例中,识别HTML资源的编码方式,包括:
调用预定的字符编码识别算法识别HTML资源的编码方式。
在一个实施例中,对已声明的编码方式进行自动纠错,得到自动纠错后的编码方式,包括:
将已声明的编码方式与预设编码方式中的每一种分别计算拼写相似度;
当最高的拼写相似度大于预设阈值时,将最高的拼写相似度所对应的预设编码方式确定为自动纠错后的编码方式。
在一个实施例中,该方法还包括:
若网页资源是CSS资源,则将网页数据中的HTML资源采用的编码方式识别为CSS资源的编码方式,采用与编码方式所对应的解码方式解码CSS资源。
根据本公开实施例的第二方面,提供了一种网页编码识别装置,该装置包括:
数据加载模块,被配置为加载网页数据,网页数据包括至少一个网页资源;
方式检测模块,被配置为检测网页资源是否为HTML资源且声明了编码方式;
方式识别模块,被配置为当网页资源是HTML资源但未声明编码方式时,识别HTML资源的编码方式;
资源解码模块,被配置为采用与识别到的编码方式所对应的解码方式解码HTML资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410562477.9/2.html,转载请声明来源钻瓜专利网。