[发明专利]一种计算机实现的用于优化标记语言文本的方法与设备有效
申请号: | 201110193378.4 | 申请日: | 2011-07-11 |
公开(公告)号: | CN102880606B | 公开(公告)日: | 2017-03-15 |
发明(设计)人: | 李成银 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙)11370 | 代理人: | 罗朋 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算机 实现 用于 优化 标记 语言 文本 方法 设备 | ||
技术领域
本发明涉及网络优化计算领域,尤其涉及一种优化标记语言文本的技术。
背景技术
随着互联网技术的发展与应用,人们对网页下载速度有了更高的要求,由此标记语言文本,如HTML等的优化技术受到越来越多的关注并得到一定程度的发展。由于许多标记语言文本中包含大堆冗余信息,这些冗余信息给本来应该尽可能保持轻量级的页面增加一定不必要的负担且占据大量存储空间,降低页面加载速度,进而降低了页面的可访问性和易维护性。现有技术主要利用正则表达式匹配的方法对例如HTML文本进行优化处理,以减少其文本大小,但该方法仅能够去除HTML文本中有限的冗余内容,如换行、注释等,不能对HTML标签中的内容进行优化,并且利用正则表达式匹配的方式进行优化可能导致对HTML内容的破坏。
因此,如何有效地优化标记语言文本,成为目前亟待解决的问题之一。
发明内容
本发明的目的是提供一种用于优化标记语言文本的方法与设备。
根据本发明的一个方面,提供一种用于优化标记语言文本的方法,该方法包括以下步骤:
a获取待处理的标记语言文本;
b基于对所述标记语言文本的词法分析,对所述标记语言文本进行分词处理,以获得与所述标记语言文本相对应的一个或多个单词序列;
c对所述单词序列进行优化处理,以获得与所述单词序列相对应的优化单词序列;
d将所述优化单词序列进行合并,以获得与所述标记语言文本相对应的标记语言优化文本。
根据本发明的另一个方面,还提供了一种用于优化标记语言文本的设备,该设备包括:
文本获取装置,用于获取待处理的标记语言文本;
词法分析装置,用于基于对所述标记语言文本的词法分析,对所述标记语言文本进行分词处理,以获得与所述标记语言文本相对应的一个或多个单词序列;
优化装置,用于对所述单词序列进行优化处理,以获得与所述单词序列相对应的优化单词序列;
优化文本获取装置,用于将所述优化单词序列进行合并,以获得与所述标记语言文本相对应的标记语言优化文本。
与现有技术相比,本发明对待处理的标记语言文本进行词法分析,以获得与该标记语言文本相对应的单词序列,再对该些单词序列进行优化处理从而得到优化单词序列;本发明在保证标记语言文本内容逻辑正确的前提下,对更多内容进行优化,在提高优化准确性的基础上实现了页面的高速加载,进而提升了页面的可访问性和易维护性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面用于识别失序文本的设备示意图;
图2示出根据本发明另一个方面用于识别失序文本的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面用于优化标记语言文本的设备示意图。优化设备1包括文本获取装置11、词法分析装置12、优化装置13和优化文本获取装置14。在此,优化设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110193378.4/2.html,转载请声明来源钻瓜专利网。