[发明专利]从网络中查找与主题词相关的名称的方法和设备有效
申请号: | 201110401703.1 | 申请日: | 2011-12-06 |
公开(公告)号: | CN103150307A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 谢宣松;姜珊珊;孙军;郑继川 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 丁辰 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 查找 主题词 相关 名称 方法 设备 | ||
技术领域
本发明涉及一种从网络中查找与主题词相关的名称的方法和从网络中查找与主题词相关的名称的设备。
背景技术
随着计算机及网络技术的发展,对从网络资源中查找有用信息的需求也越来越大。产品的评论、排序以及描述类的页面在因特网上大量存在。在很多情况下(产品调查、市场分析以及策略制定),希望为某种特定主题找到精确的相关产品名称,如自动在线找到一个分类的所有结果。这样的名称在网上大规模存在且动态变化。从人的角度出发,从网页中识别并分类这些名称不是一个大的问题,但是非常费时间。此外,搜索名称的用户通常希望了解产品排序信息,如哪种产品最为流行。
如果产品名称能够自动被找到并排序,对用户来说是非常有用的。另一方面,这些名称对后续处理也非常有用,所述后续处理例如包括特征抽取以及整合等。然而问题在于:网页是一种半结构化的数据,包括了许多无关信息,以致于非常难以被机器读懂及分析。
在与根据主题词搜索名称相关的技术领域,已经取得一定进展。
专利文件1(Patent US7065483 B2,Computer method and apparatus for extracting data from web pages,Zoom info.)公开了从网页中抽取数据的计算方法和装置。该专利文件1提供了一种从网页中抽取数据的方法,该方法包括:i)使用自然语言处理方法从给定网页找到可能的正式名称;ii)使用模式匹配来搜索给定网页中没有被步骤i所发现的正式名称;iii)合并及精练上述名称集,以从给定网页中产生人名和组织名。专利文件1使用语法词法分析更适用于语法结构比较好的纯文本,而不合适网页中的产品名称等短词结构;同时,使用模式匹配的方法也将面临网页语言结构的问题。
专利文件2(Patent US2007/0078850 A1,Commercial web data extraction system,Microsoft.)公开了一种商业网络数据抽取系统。该系统基于实体抽取器来自动抽取产品信息元素。一些相关的信息元素能够被特定的分类中的公用名称标识,如某些知名的商标名。另一些信息元素可以通过训练实体抽取器来标识。首先,一个训练文档集会被人为查阅,并识别不同各类的产品数据。这些训练文档被用来优化实体抽取器的参数,以使之正确抽取不同的信息元素,如商标、价格、图像以及投票等。专利文件2使用特定分类中的通用关键词,如名商标等,对未登录产品不能够很好的支持,同时,对不同的产品数据类型进行标注需要耗费大量的时间。
非专利文件1(在网络数据抽取中的同步记录识别及属性标注(Jun Zhu,Zaiqing Nie,Ji-Rong Wen,Simultaneous Record Detection and Attribute Labelling in Web Data Extraction,Proceedings of the 12th ACM SIGKDD,494-503,2006.))提出名称为多层条件随机域的模型,其能够通过学习重要性来有效的集成所有有用的信息,并且可以结合层次的互相作用,来进行网络数据抽取。该论文描述的是一种机器学习的方法,上述特征被用来训练以人为标注,和其它的特征起一样的作用,并需要手动识别。
非专利文件2(WebSeer:一种基于因特网的图像搜索系统(Charles F.,Michael J.S.,and Vassilis A.,WebSeer:An Image Search Engine for the World Wide Web,Technical Report 96-14 in the Univ.of Chicago,August 1,1996.))描述了如何从网络中找到图像,在文本和HTML源码中有相关的线索。了解网页的结构有助于获取有价值的有关于图像的信息。存在于多个地方的图像相关信息有可能在该文档内:图像文本名,标题,alt文本,HTML标题以及超链接。该非专利文件2的目的在于,描述一种如何构建基于文本的图像搜索系统,并使用相关特征来找到图像。
发明内容
鉴于现有技术中存在的上述问题而做出本发明。本发明总体上涉及与信息处理和信息抽取相关技术,提供一种从网络中查找与主题词相关的名称的方法和从网络中查找与主题词相关的名称的设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110401703.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光罩
- 下一篇:存储快照创建方法和装置