[发明专利]一种表单的获取方法及装置有效
申请号: | 201610003647.9 | 申请日: | 2016-01-04 |
公开(公告)号: | CN105677827B | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 邓鸣捷;王晓元;马宇峰;叶峻 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 表单 获取 方法 装置 | ||
本发明实施例提供了一种表单的获取方法及装置。一方面,本发明实施例通过获取用户访问的页面的文档对象模型DOM树;从而,根据所述DOM树的节点,确定所述页面包含的表单的边界信息;进而,利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单,以及,识别所述候选转化表单是否为有效转化表单。因此,本发明实施例提供的技术方案能够实现提高有效转化表单的识别率。
【技术领域】
本发明涉及互联网技术领域,尤其涉及一种表单的获取方法及装置。
【背景技术】
目前,用户在访问网站后可以生成相应的访问记录,可以通过对访问记录的离线分析,判断用户是否访问了网站的转化页面,如用户是否访问过网站的注册、预定、购买或者咨询等页面,而且还会更进一步分析用户是否在这些转化页面提供了有效转化表单,从而能够识别出用户是否真实地转化成了指定类型的用户,如广告用户,有效转化表单可以用于为资源投放的决策提供支持。
现有技术中,识别有效转化表单的方式比较简单,是通过识别页面的文档对象模型(Document Object Model,DOM)树中的表单(form)标签来获取页面中的有效转化表单。然而,页面的规范设计中往往使用form标签来标识表单,但会存在很多不规范设置的页面,其采用的并不是form标签,如果使用form表单识别有效转化表单,不规范设置的页面中的表单将无法被识别到。因此,现有技术中有效转化表单的识别方式的识别率比较低。
【发明内容】
有鉴于此,本发明实施例提供了一种表单的获取方法及装置,可以实现提高有效转化表单的识别率。
本发明实施例的一方面,提供一种表单的获取方法,包括:
获取用户访问的页面的文档对象模型DOM树;
根据所述DOM树的节点,确定所述页面包含的表单的边界信息;
利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单;
识别所述候选转化表单是否为有效转化表单。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取用户访问的页面的DOM树,包括:
从用户访问日志中获取用户访问的页面的统一资源定位符URL;
根据用户访问的页面的URL,访问所述URL对应的页面,以获取用户访问的页面的DOM树。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述DOM树的节点,确定所述页面包含的表单的边界信息,包括:
根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树;
在所述可视内容的DOM树中确定按钮标签和文本框标签;
在所述可视内容的DOM树中获取距离所述按钮标签和所述文本框标签最近的公共父节点,以作为所述表单的边界信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单,包括:
在所述可视内容的DOM树中,提取距离所述按钮标签和所述文本框标签最近的公共父节点的所有子节点的信息,以作为所述表单信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树,包括:
根据所述DOM树的节点属性,获取所述DOM树中具有显示框类型属性的节点,若所述节点的显示框类型属性的属性值指示所述节点对应的元素在所述页面中不显示,在所述DOM树中删除所述节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610003647.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气管切开堵管器
- 下一篇:注射泵的供电安全隔离装置