[发明专利]从网络中查找与主题词相关的名称的方法和设备有效
申请号: | 201110401703.1 | 申请日: | 2011-12-06 |
公开(公告)号: | CN103150307A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 谢宣松;姜珊珊;孙军;郑继川 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 丁辰 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 查找 主题词 相关 名称 方法 设备 | ||
1.一种从网络中查找与主题词相关的名称的方法,包括:
网页查找步骤,在网络中查找与主题词相关的网页,并对网页进行过滤和解析;
候选名称第一提取步骤,根据单个网页的DOM树中的图像节点,提取其中的图像名称并与周边文本匹配后构成候选名称第一集合;
候选名称第二提取步骤,将该网页的DOM树转换成代码序列,在代码序列中确定重复子序列,在该网页的候选名称第一集合中,提取与重复子序列相对应的候选名称,构成候选名称第二集合;
单页候选名称确定步骤,根据预定规则及预定模板来对候选名称第二集合进行过滤,确定该网页的候选名称;
多页候选名称过滤步骤,针对来自多个网页的候选名称,根据候选名称之间或候选名称与主题词的关系进行过滤,得到与该主题词相关的名称;
名称排序步骤,计算各个名称的分值,根据分值对各个名称进行排序。
2.按照权利要求1所述的方法,其中,所述网页查找步骤包括:
主题词扩展步骤,根据预定义的模式将主题词扩展得到多个查询词;
网页搜索步骤,利用所述多个查询词在网络中查找网页;
网页过滤步骤,根据网页的URL地址、标题、网页描述和主题词来过滤网页;
解析步骤,将通过所述网页过滤步骤的过滤的网页解析为DOM树;
节点过滤步骤,根据预定的去除规则及保留规则对节点进行过滤。
3.按照权利要求1所述的方法,其中,所述候选名称第一提取步骤包括:
图像节点查找步骤,根据节点的标签名称来在该单个网页的DOM树中查找到图像节点;
图像节点过滤步骤,在所述图像节点中,根据预定规则过滤掉不可能包含与主题词相关的名称的图像节点;
图像名称查找步骤,针对通过所述图像节点过滤步骤的过滤的图像节点,在图像节点的属性值中查找图像名称;
图像名称验证步骤,在该图像节点的附近节点中,查找与该图像名称匹配的文本,过滤掉与附近节点的文本匹配程度低的图像名称,通过过滤的图像名称构成候选名称第一集合。
4.按照权利要求1所述的方法,其中,在所述候选名称第二提取步骤中,根据该单个网页的DOM树中节点的标签种类、及该节点相对于根节点的深度,来对节点编码,该DOM树中节点的代码构成该DOM树的代码序列。
5.按照权利要求1所述的方法,其中,在所述候选名称第二提取步骤中,利用后缀数组算法,根据子序列相似度来在DOM树的代码序列中查找重复子序列。
6.按照权利要求1所述的方法,其中,在所述候选名称第二提取步骤中,
根据各个重复子序列的长度和频率确定其分值,确定分值最大的重复子序列,判断该网页的候选名称第一集合中的候选名称是否与该最大的重复子序列相关,相关的候选名称构成候选名称第二集合。
7.按照权利要求1所述的方法,其中,所述单页候选名称确定步骤包括:
名称去除步骤,去除属于预定集合的候选名称;
模板过滤步骤,把通过名称去除步骤的候选名称代入预定模板,去除与任何预定模板不相匹配的候选名称;
长度过滤步骤,针对通过模板过滤的候选名称,去除其长度在预定阈值以外的部分,经过长度过滤的候选名称作为该网页的候选名称。
8.按照权利要求1所述的方法,其中,在所述多页候选名称过滤步骤中,
针对来自多个网页的候选名称,计算各个候选名称与其它候选名称的相似度,去除与其它候选名称的相似度低于预定阈值的候选名称,以未被去除的候选名称作为查询词搜索主题词,去除搜索不到主题词的候选名称,其余候选名称作为与该主题词相关的名称。
9.按照权利要求1所述的方法,其中,在所述名称排序步骤中,
根据各个名称的查询权重、网页权重、页内位置权重、内容权重、频率权重中的一个或多个来确定该名称的分值,根据该分值对各个名称进行排序并输出。
10.一种从网络中查找与主题词相关的名称的设备,包括:
网页查找装置,在网络中查找与主题词相关的网页,并对网页进行过滤和解析;
候选名称第一提取装置,根据单个网页的DOM树中的图像节点,提取其中的图像名称并与周边文本匹配后构成候选名称第一集合;
候选名称第二提取装置,将该网页的DOM树转换成代码序列,在代码序列中确定重复子序列,在该网页的候选名称第一集合中,提取与重复子序列相对应的候选名称,构成候选名称第二集合;
单页候选名称确定装置,根据预定规则及预定模板来对候选名称第二集合进行过滤,确定该网页的候选名称;
多页候选名称过滤装置,针对来自多个网页的候选名称,根据候选名称之间或候选名称与主题词的关系进行过滤,得到与该主题词相关的名称;
名称排序装置,计算各个名称的分值,根据分值对各个名称进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110401703.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光罩
- 下一篇:存储快照创建方法和装置