[发明专利]一种确定网络资源点的抓取频率的装置和方法有效
申请号: | 201310495856.6 | 申请日: | 2013-10-21 |
公开(公告)号: | CN103577557B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 孙林;陈培军;秦吉胜 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市隆安律师事务所11323 | 代理人: | 权鲜枝 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 网络资源 抓取 频率 装置 方法 | ||
技术领域
本发明涉及网络数据分析领域,具体涉及一种确定网络资源点的抓取频率的装置和方法。
背景技术
问答社区是一种用户产生内容的网络应用,基本形式是由用户根据自己的需求提出问题,并由其他的用户来给出回答。这种形式为用户在网络上获取信息提供了新的渠道。然而由于任何用户都可以随意地创建内容,导致了问答社区中的信息质量差异非常大,以至于问答社区中出现了大量的低质量问答对。这不但降低了问答社区的质量,更给用户查找信息带来了诸多不便,例如,使用现有的搜索技术进行问答搜索时,难以判断问答社区作为网络资源点的质量而现有技术(例如,爬虫蜘蛛)的对网络资源点设置抓取频率方法,更多地依赖于问答对网站的链接的分析,这样的方法用于问答搜索,不能从语义上分析问答对也不能根据网络资源点的质量调整抓取频率(或,爬取细度、爬取频率),会影响搜索的精确性和通用性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种确定网络资源点的搜索排名的装置和相应的确定网络资源点的搜索排名的方法。
依据本发明的一个方面,提供了一种确定网络资源点的抓取频率的装置,该装置包括:
问答知识库,适于存储多条问答知识记录;
资源分析单元,适于由网络资源点抓取多个待分析问答对;
相关联程度计算单元,适于根据问答知识库获取每个待分析问答对的相关联程度;
抓取频率确定单元,根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。
可选地,所述相关联程度计算单元包括:词语提取子单元,适于对待分析的问答对的问题内容和答案内容进行词语提取操作,得到至少一个待分析问题词语和至少一个待分析答案词语;计算子单元,适于根据待分析问题词语和待分析答案词语,从问答知识库选择至少一条问答知识记录,根据所选择的问答知识记录计算待分析的问答对的相关联程度。
可选地,所述抓取频率确定单元,适于以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率;或,使用蜘蛛爬虫获取所述网络资源点的初始抓取频率,计算所述待分析问答对的相关联程度的平均值,使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率。
可选地,该装置还包括问答知识库构建单元,所述问答知识库构建单元,适于预先从含有问答对的网页提取出多个问答对,根据提取的问答对构建包括多条问答知识记录的问答知识库;所述问答知识库构建单元,进一步适于在从含有问答对的网页提取出多个问答对时,抓取与所述问答对对应的类别;所述问答知识库构建单元,进一步适于在根据提取的问答对构建问答知识库时,根据问答对和与所述问答对对应的类别构建问答知识记录;每个问答知识记录对应于一个类别,分别包括一个问题词语、一个答案词语,以及所述问题词语和所述答案词语之间的语义相关度。可选地,所述计算子单元,适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录;根据所述选取的问答知识记录中对应于相同类别的问答知识记录,得到该待分析的问答对针对各个类别的相关联程度;选取上述该待分析的问答对针对各个类别的相关联程度的最大值,以该最大值作为待分析的问答对的相关联程度。
可选地,所述计算子单元,适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加,得到该待分析的问答对分别针对各个类别的相关联程度。
可选地,所述词语提取子单元,适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并,和提取实体词的操作。
可选地,所述问答知识库构建单元,适于对每个问答对执行以下操作:对该问答对的问题内容和答案内容进行词语提取操作,得到问题词语集合和答案词语集合;令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;所述问答知识库构建单元,适于对每一条信息记录,执行以下操作:计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度;将上述概率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。
可选地,所述问答知识库构建单元,适于按照如下的方法计算该答案词语属于该类别的概率:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310495856.6/2.html,转载请声明来源钻瓜专利网。