[发明专利]一种元搜索列表结果抽取方法及系统有效
申请号: | 201710880652.2 | 申请日: | 2017-09-26 |
公开(公告)号: | CN109948015B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 齐保元;周美林;李鹏;王斌 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 列表 结果 抽取 方法 系统 | ||
1.一种元搜索列表结果抽取方法,步骤包括:
获取元搜索检索结果的网页源代码;
对所述网页源代码基于XPATH解析,确定检索结果区域和扩展区域的XPATH路径,抽取列表项信息和扩展信息;
如果基于XPATH解析失败,则对所述网页源代码基于统计信息规则提取列表项信息,并基于启发式规则提取扩展信息;
将所述抽取的列表项信息和扩展信息作为抽取结果进行封装,组成用于元搜索的数据结构。
2.根据权利要求1所述的方法,其特征在于,所述网页源代码包括基于关键词检索的网页结果。
3.根据权利要求1所述的方法,其特征在于,基于XPATH解析时,利用不同的符号运算来对多个检索结果进行调节融合,对列表项信息进行相对位置的转化。
4.根据权利要求1所述的方法,其特征在于,所述列表项信息包括列表项的标题、摘要信息、链接地址、快照地址、收录时间。
5.根据权利要求1所述的方法,其特征在于,所述扩展信息包括相关结果总数、相关搜索列表、翻页列表。
6.根据权利要求5所述的方法,其特征在于,基于启发式规则抽取扩展信息的步骤包括:
如果所在html区域内包含的链接小于2,且含有“结果”字符串,则进行数字提取,以确定所述相关结果总数;
如果所在html区域内包含的链接大于2,且含有“相关搜索”字符串,则提取所有链接的锚文本作为相关的搜索词,以确定所述相关搜索词;
如果所在html区域内包含的链接大于2,且含有“一页”字符串,则提取所有链接以及链接地址的锚文本作为翻页列表信息,以确定所述翻页列表。
7.根据权利要求1所述的方法,其特征在于,所述统计规则包括:
将网页解析成一个DOM树结构;
对于所述DOM树结构的每一个节点,记录其直接子节点列表,记为表格;
按照所述表格中每个节点信息对应的所述子节点列表的大小,从大到小排序;
根据用户自定义的列表,过滤掉不可能是列表父节点的项;
如果所述表格的项符合条件要求,则过滤掉,否则取出该项对应的子列表;
对所述子列表中的第一级进行标签判断,确定属性并抽取出相对应的值,该值即所述列表项信息。
8.一种元搜索列表内容抽取系统,包括:
数据获取模块,用于获取元搜索检索结果的网页源代码;
XPATH抽取模块,用于从网页中确定目标区域的XPATH路径;
基于XPATH的信息提取模块,用于根据网页所属的元搜索来调用相对应的XPATH解析,提取出相对应的列表项信息和扩展信息;
基于统计的信息抽取模块,用于根据启发式规则抽取扩展信息,及根据统计规则抽取列表项信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710880652.2/1.html,转载请声明来源钻瓜专利网。