[发明专利]存储和定位结构化文档选取内容的方法与系统有效

专利信息
申请号: 201410300699.3 申请日: 2014-06-27
公开(公告)号: CN104036026B 公开(公告)日: 2018-02-23
发明(设计)人: 吴涛军 申请(专利权)人: 吴涛军
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 江阴市永兴专利事务所(普通合伙)32240 代理人: 达晓玲,施光亚
地址: 210000 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 存储 定位 结构 文档 选取 内容 方法 系统
【说明书】:

技术领域

本申请涉及一种存储和定位结构化文档选取内容的方法与系统,其能够实现结构化文档选取内容的位置存储和重新定位,属于本发明属于信息检索技术领域。

背景技术

目前,随着计算机网络的广泛应用,人们对于存储和定位结构化文档上的选取内容具有强烈的需求。人们希望对于已经访问的结构化文档内容能够实现精确定位。也就是说,在再次访问该结构化文档时,能够精确地定位已经选择的结构化文档内容。

为了解决上述技术问题,现有技术做了一些探索。现有技术涉及存储和定位结构化文档上的选取内容的方法有两种,一种方法是针对静态结构化文档,通过保存上次用户使用鼠标标记时操作起始所在的屏幕坐标来定位选取内容。另一种方法通过保存用户选取内容的XPath路径来定位,DOM(Document Object Model)是一种处理可扩展标记语言(包括HTML)的标准编程接口,它将HTML文档看成是一棵拥有许多结点的树,而XPath则是遵循DOM的路径格式的路径表达式,可以描述从一个DOM节点到另一个DOM结点的步骤顺序。该方法通过记录根节点到选取内容所在DOM节点的XPath路径来实现定位选取内容。显然,第一种方法由于仅仅针对静态网页所以局限性非常明显,同时需要通过所保存的屏幕坐标加以定位处理效率不高。第二种方法采用较为普遍,例如,雅虎公司于2013年5月9日公开的US2013117127A1号美国专利申请,涉及一种根据用户之前的选择内容对广告信息加以定位的系统和方法,主要根据类似思路加以设计。再如,美国网络技术应用公司(Network Appliance Inc.)于2005年12月13日公开的US6976189B1号美国专利申请、于2008年6月10日公开的US7386762B1号美国专利申请、于2010年11月9日公开的US7831864B1号美国专利申请均涉及将基于内容的用户行为加以存储和处理的系统,其中即采用将文档看做包括许多节点的树状结构,通过树状结构的遍历算法优化实现处理。

上述两种处理思路,尤其是第二种处理思路所存在的技术问题在于:实现的通用性和定位的准确性较差。实现的通用性差主要体现在移动终端和通用计算机等多种计算设备在实现上述功能方面的通用性不强,由于移动终端上浏览器对于网页的呈现方式与通用计算机上有所不同,生成的DOM树结构有所不同,因此在通用计算机上保存的选取内容可能无法在移动终端的网页上定位。定位的准确性差主要体现在静态网页被修改后定位不准确和动态网页插件加载对于定位的影响,当用在静态网页时,网页文档被修改后,新网页无法根据已保存的XPath路径信息定位选取内容,当用在动态网页时,由于网页插件、浏览器插件或其他第三方组件可能对网页增加一些标签以达到插件效果,所保存的XPath路径在新插件无法加载时,无法用来定位选取内容。

发明内容

为了解决上述问题,提供一种在计算机和移动终端上都可以精确稳定地存储和定位结构化文档上的选取内容的方法与装置。

本发明为解决上述技术问题采用以下技术方案:

一种存储结构化文档选取内容的方法,包括如下步骤:计算步骤,以一个或者多个任意节点为参照节点,计算出用户选取内容起始位置的偏移量和结束位置的偏移量;存储步骤,将参照节点、选取内容起始位置的偏移量和选取内容结束位置的偏移量存储到服务器。

作为优选方案,如上所述的存储结构化文档选取内容的方法,其中,存储步骤还存储选取内容;参照节点为结构化文档正文的根节点;并且,所述存储步骤还存储统一资源定位符。

如以上任一方案和优选方案所述的存储结构化文档选取内容的方法,其中计算步骤包括如下子步骤,起始位置的内容长度计算步骤,计算选取内容起始位置与最近文档节点之间的内容长度;遍历步骤,从参照节点开始,遍历最近文档节点之前的每个节点,并判断节点标签是否是特殊标签表中的标签,如果是,将表中标签对应的值作为节点中内容的长度,如果不是,取得节点中内容的长度;最近文档节点偏移量计算步骤,将最近文档节点之前每个节点中内容的长度进行累加,得到最近文档节点的偏移量;选取内容起始位置偏移量计算步骤,将最近文档节点的偏移量加上选取内容起始位置与最近文档节点之间的内容长度,得到选取内容起始位置的偏移量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吴涛军,未经吴涛军许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410300699.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top