[发明专利]网页编码识别方法及装置有效

申请号：	201410562477.9	申请日：	2014-10-21
公开（公告）号：	CN104361021B	公开（公告）日：	2018-07-24
发明（设计）人：	左景龙;范金松;田凡	申请（专利权）人：	小米科技有限责任公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	张所明
地址：	100085 北京市海淀区清***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页编码识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开是关于一种网页编码识别方法及装置，属于计算机网络领域。所述方法包括：加载网页数据，所述网页数据包括至少一个网页资源；检测所述网页资源是否为超文本标记语言HTML资源且声明了编码方式；若所述网页资源是HTML资源但未声明编码方式，则识别所述HTML资源的编码方式；采用与识别到的所述编码方式所对应的解码方式解码所述HTML资源。本公开解决了相关技术中网页编码中的“charset”字段漏写时，浏览器可能会显示乱码的问题；达到了即便网页资源中未声明编码方式，也能够正常解码网页资源并进行显示的效果。

技术领域

本公开涉及计算机网络领域，特别涉及一种网页编码识别方法及装置。

背景技术

随着网络技术的发展，用户使用终端中的浏览器来浏览网页是最常使用的一种功能。

由于网页数据可能采用不同的编码方式进行编码，浏览器首先需要根据网页数据中的“charset”字段来识别网页数据的编码方式，进而采用与该编码方式对应的解码方式对网页数据进行解码，然后对网页数据进行显示。但是由于网站搭建和网页编辑的技术越来越普及，很多技术人员开发的网页数据中会漏写或错写“charset”字段，此时，浏览器采用默认的解码方式解码，有可能会显示乱码。

发明内容

为了解决相关技术中网页编码中的“charset”字段漏写或者错写时，浏览器会显示乱码的问题，本公开实施例提供了一种网页编码识别方法及装置。所述技术方案如下：

根据本公开实施例提供的一种网页编码识别方法，该方法包括：

加载网页数据，网页数据包括至少一个网页资源；

检测网页资源是否为HTML资源且声明了编码方式；

若网页资源是HTML资源但未声明编码方式，则识别HTML资源的编码方式；

采用与识别到的编码方式所对应的解码方式解码HTML资源。

在一个实施例中，该方法还包括：

若网页资源是HTML资源但已声明编码方式，则检测已声明的编码方式是否为预设编码方式中的一种；

若已声明的编码方式不是预设编码方式中的一种，则识别HTML资源的编码方式；或，对已声明的编码方式进行自动纠错，得到自动纠错后的编码方式。

在一个实施例中，识别HTML资源的编码方式，包括：

调用预定的字符编码识别算法识别HTML资源的编码方式。