[发明专利]一种元搜索列表结果抽取方法及系统有效
申请号: | 201710880652.2 | 申请日: | 2017-09-26 |
公开(公告)号: | CN109948015B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 齐保元;周美林;李鹏;王斌 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 列表 结果 抽取 方法 系统 | ||
本发明提供一种元搜索列表结果抽取方法,步骤包括:获取元搜索检索结果的网页源代码;对所述网页源代码基于XPATH解析,确定检索结果区域和扩展区域的XPATH路径,抽取列表项信息和扩展信息;如果基于XPATH解析失败,则对所述网页源代码基于统计信息规则提取列表项信息,并基于启发式规则提取扩展信息;将所述抽取的列表项信息和扩展信息作为抽取结果进行封装,组成用于元搜索的数据结构。本发明还提供一种元搜索列表结果抽取系统。
技术领域
本发明涉及网络信息处理技术领域,尤其涉及基于元搜索引擎的数据采集领域,是一种元搜索查询结果列表的自动抽取方法,实现了更精准的元搜索列表数据获取的方法和系统。
背景技术
搜索引擎按功能划分,可分为独立搜索引擎和元搜索引擎。独立搜索引擎包括谷歌、百度等,元搜索引擎包括webcrawler等。在独立搜索引擎中,用户提交的查询词只在该引擎的数据库内进行检索,而元搜索引擎会将搜索请求发送至多个独立搜索引擎,并搜集各独立搜索引擎返回的结果进行去重排序显示给用户。
针对元搜索引擎的数据采集首先模拟用户行为输入搜索查询词,再对元搜索引擎返回的查询结果列表进行链接解析和信息提取,其他工作还包括网页去重、网页正文抽取、采集任务配置等。
元搜索检索结果列表网页作为一种特殊的网页,具有与普通网页不同的特点,主要表现在区域不固定性和结果数量的不确定性。
现有网页信息抽取主要有三种方式:一种是基于网页的HTML标签提取,此种方式的优点是比较能够准确地识别出非常规的网页结构中的网页正文,但是HTML内容的不完整或者不规整,都会导致标签无法正常匹配。另一种是基于文档对象模型(DOM,DocumentObjectModel)的分割法,该方法通过找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构,然后根据特定标签包括Heading、Table、Paragraph和List等来提取有效的树结点数据。但是,在许多情况下,DOM不是用来表示网页列表结构的,所以利用该方法不能构建完整的树结构,不完备的解析树同样会造成节点的判断出错。还有一种基于模板的方式需要耗费人工去匹配模板,消耗大量的人力物力,并且对于新出现的网站或者网站改版的反应不及时,造成内容的提取失败。
以上三种抽取方式不适用于网页信息尤其是元搜索检索结果网页的列表抽取。
发明内容
本发明的目的在于提供一种元搜索列表结果抽取方法及系统,能够自动从列表中提取信息,以辅助信息的搜集,同时提高列表内容抽取的效率和准确性,且减少人工成本。
为达到上述目的,本发明采用如下技术方案:
一种元搜索列表结果抽取方法,步骤包括:
获取元搜索检索结果的网页源代码;
对所述网页源代码基于XPATH解析,确定检索结果区域和扩展区域的XPATH路径,抽取列表项信息和扩展信息;
如果基于XPATH解析失败,则对所述网页源代码基于统计信息规则提取列表项信息,并基于启发式规则提取扩展信息;
将所述抽取的列表项信息和扩展信息作为抽取结果进行封装,组成用于元搜索的数据结构。
进一步地,所述网页源代码包括基于关键词检索的网页结果。
进一步地,基于XPATH解析时,利用不同的符号运算来对多个检索结果进行调节融合,对列表项信息进行相对位置的转化。
进一步地,所述列表项信息包括列表项的标题、摘要信息、链接地址、快照地址、收录时间。
进一步地,所述扩展信息包括相关结果总数、相关搜索列表、翻页列表。
进一步地,基于启发式规则抽取扩展信息的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710880652.2/2.html,转载请声明来源钻瓜专利网。