[发明专利]信息处理装置和方法以及信息定位装置在审
申请号: | 201510830867.4 | 申请日: | 2015-11-25 |
公开(公告)号: | CN106802890A | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 张波;孟遥;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王萍,陈炜 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 装置 方法 以及 信息 定位 | ||
技术领域
本公开总体上涉及信息处理领域,具体而言,涉及对网页信息进行处理的信息处理装置和方法以及利用该信息处理装置或方法的信息定位装置。
背景技术
目前,面对如互联网等包括海量信息的信息源,如何得到用户感兴趣的信息正受到越来越多的关注。为了提高信息处理的效果,如果能够得到用户期望的与关注对象有关的网页信息的特性,则可以利于过滤掉用户不想要的内容以及提取用户期望内容等。
因此,期望能够得到诸如互联网的信息源中与关注对象有关的网页信息的特性,以便利于利用该特性进行后续处理。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种能够获得与关注对象有关的网页信息的特性的信息处理方法和装置,以至少克服现有的问题。
根据本公开的一个方面,提供了一种信息处理装置,包括:搜索单元,用于搜索与关注对象有关的结构化的网页信息;语义特征获取单元,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取单元,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样 式特征表示所搜索到的网页信息的结构,其中,所述样式特征获取单元被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。
根据本公开的另一方面,提供了一种信息定位装置,其利用上述信息处理装置在与所述关注对象有关的网站中定位与所述关注对象有关的结构化的网页信息,所述信息定位装置包括:网站语义特征获取单元,用于获取所述网站的目标部分的语义特征,该语义特征表示所述目标部分中的、与所述关注对象相关联的内容;网站样式特征获取单元,用于获取所述网站的目标部分的样式特征,该样式特征表示所述目标部分的结构;相关度计算单元,用于计算所述目标部分的语义特征与所述信息处理装置所获取的语义特征之间的语义相关度、以及所述目标部分的样式特征与所述信息处理装置所获取的样式特征之间的样式相关度;以及确定单元,用于基于所计算的语义相关度和样式相关度,确定所述目标部分是否为所述结构化的网页信息,其中,所述网站样式特征获取单元被配置为:计算所述网站的目标部分的DOM树中的、与符合预定条件的节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的网站样式向量,以作为所述目标部分的样式特征。
根据本公开的又一方面,提供了一种信息处理方法,包括:搜索与关注对象有关的结构化网页信息;获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,获取所述样式特征包括:计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。
依据本公开的其它方面,还提供了一种使得计算机用作如上所述的信息处理装置的程序。
依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述信息处理方法。
上述根据本公开实施例的各个方面,至少能够获得以下益处:利用本公开所提供的信息处理方法和装置,能够针对与关注对象有关的结构化的 网页信息获得这些网页信息的语义特征和样式特征,并且所得到的语义特征反映了与关注对象相关联的内容,所得到的样式特征反映了网页信息的DOM树中的样式信息,即相当于获得了与关注对象有关的特性信息。
此外,利用本公开所提供的信息定位装置,能够利用所得到的语义特征和样式特征,在与关注对象有关的网站中定位与关注对象有关的结构化的网页信息。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510830867.4/2.html,转载请声明来源钻瓜专利网。