[发明专利]一种基于特定字符串查找的简体中文编码方式自动识别系统及方法有效
申请号: | 201910488932.8 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110196968B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 蒋东辰;贾婉华;牛颖 | 申请(专利权)人: | 北京林业大学 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/279;G06F40/216;G06F16/903 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特定 字符串 查找 简体中文 编码 方式 自动识别 系统 方法 | ||
本发明涉及一种基于特定字符串查找的简体中文编码方式自动识别系统及方法,包括:字符串集合设置模块及中文文本编码识别模块,其中:字符串集合设置模块:用于设置GB 18030和UTF8的排他字符串集合,及GB 18030编码和UTF8编码的高概率字符串集合;中文文本编码识别模块:根据GB 18030编码和UTF8编码的排他字符串集合的逻辑属性和高概率字符串集合的概率属性识别目标文本的简体中文编码方式。能够通过对几个常用汉字特定编码字符串的查找,快速确定简体中文文本的编码方式;既适用于浏览器、网页爬虫等软件快速识别简体中文网页的编码方式,也可用于对未知中文文本编码方式的自动识别。本发明对于网页自动显示、文本信息提取、中文文本语义分析等方面具有重要的应用价值。
技术领域
本发明涉及网络通信、信息检索、中文信息处理等相关技术领域,特别涉及浏览器、爬虫等网页获取工具对简体中文编码网页编码方式的自动识别系统及方法。
技术背景
随着互联网技术和大数据处理能力的高速发展,万维网(World Wide Web)已经成为世界上最大的文本资料库。如何有效地提取万维网上的信息已经成为当前的一个新的研究方向,其内容涉及高速的收集、处理和提取网页文本信息。
人们在使用浏览器浏览网页或者利用爬虫自动提取信息时,首先需要利用程序对网页文件源码进行编码解析。对于内容为中文的网页而言,常用的简体中文编码包括GBK、UTF-8、GB2312、GB18030等。其中,GBK、GB2312等常用简体中文编码方式与GB18030编码是兼容的,而UTF8编码与GB18030等编码方式存在差异。同样的网页数据、不同的解码会导致显示内容的差异,甚至会出现乱码现象。因此,只有正确解码才能有效地识别网页文本中的中文信息,为后续的内容处理提供正确的文本解读。
一般地,网页HTML文本的编码方式会在head标签内部的meta标签中的charset字段标识。浏览器或爬虫只要找到meta标签中的charset字段就可自动识别HTML文本的编码方式。这种识别方法要求网页生成程序或网页内容书写者准确的标注中文网页文本的编码方式。然而,随着网页的制作手段多样化、网站申请和发布愈加灵活,许多可公开访问的网页在页面代码编写方面并不完善,许多中文网页并未包含charset字段甚至不含meta标签。这使得基于网页标签的中文编码识别变得困难。为此,浏览器等相关软件开发者尝试不同的方法自动识别中文网页的编码方式,以实现中文文本的正确解析。
常用的中文编码识别方法大致可分为以下几类:
基于编码特征提取的识别方法。由于各类中文编码在中文字符长度等数字特征方面存在差异,基于编码特征提取的识别方法通过统计文本中连续的中文字符串长度、单个汉字的平均编码长度等数字特征识别网页的编码方式。这类方法对具有较长文本的纯中文网页十分有效。但对于中英文混合文本,该方法会受到英文字符编码的干扰,准确率下降;对于短文本的中文网页,该方法则会因为样本数量不足而难以准确识别。
基于字频统计的识别方法。该类方法通过统计文本中常用汉字、词语的数量来区分网页文本编码方式。该类方法的基本假设如下:如果按照某种编码方式的中文字符出现多,则文本以该方式编码的可能性大。基于频率统计识别方法十分有效,但是其计算和存储开销都较大、效率不高。同时,如果常用汉字选择不恰当,还会导致错位编码的现象出现,进而降低识别的准确率。
中文编码特征和频率统计方法的结合。这类方法结合了上述两类方法的优势,能够准确识别中文文本的编码方式。该类方法一般会首先根据文本的字符序列的数字特征识别编码方式,如果无法识别,再采用分词、频率统计等方法辅助识别编码方式。由于该类方法综合了多种方法的优势,其准确率和适用度得到显著地提升。但也正因为其尝试组合了多种方法,计算效率相对较低。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910488932.8/2.html,转载请声明来源钻瓜专利网。