[发明专利]从统一资源定位符(URL)的关键字提取有效
申请号: | 201210067044.7 | 申请日: | 2012-03-14 |
公开(公告)号: | CN102693272B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | S·R·维西拉祖;U·R·尤杜帕;A·N·博伊;G·达萨;W·刘;Q·肖 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司31100 | 代理人: | 黄嵩泉 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 统一 资源 定位 url 关键字 提取 | ||
技术领域
本发明涉及URL,尤其涉及URL中的关键字提取。
背景技术
在计算中,统一资源定位符(URL)是指定所标识的资源在哪里可用并提供一种用于检索该可用资源的机制的统一资源标识符(URI)。例如,URL可以是由主存网页的网站的创建者给予网页的唯一身份。URL以标准格式来定义,该标准格式通常指定方案或协议、域名或网际协议(IP)地址、要取得资源的路径或要运行的程序、查询串以及可任选的片段标识符。URL越来越多地包含与这些URL所对应的网页的话题高度相关的经压缩的文本。在许多应用中,它们可被视为关于网页的话题的有价值的信息源。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
本文描述的关键字提取技术从web日志(例如,通常以逆时间顺序包含用户所请求的一系列URL条目的服务器日志)中的URL中提取关键字。该技术充分利用URL的内容和结构来提取相关关键字。在一个实施例中,URL首先基于其结构被分成多个分量。在受控词汇的帮助下,单独地从URL的每个分量中提取一组关键字。通过从URL的不同段中形成项的组合来生成第二组关键字。仅保留在可控词汇中出现的那些组合作为关键字。最后,用将广泛的一组特征考虑在内的一函数来对这些关键字打分。
附图说明
参考以下描述、所附权利要求书以及附图,将更好地理解本发明的具体特征、方面和优点,附图中:
图1描绘了本文所描述的关键字提取技术的示例性过程的流程图。
图2描绘了本文所描述的关键字提取技术的另一示例性过程的流程图。
图3是用于实践本文所描述的关键字提取技术的一个示例性实施例的示例性体系结构。
图4是可用于实践关键字提取技术的示例性计算环境的示意图。
具体实施方式
在以下对关键字提取技术的描述中,对附图作出参考,附图形成了该描述的一部分,且作为可实践本文所描述的关键字提取技术的说明性示例示出。可以理解,可以利用其他实施例,并且可以作出结构上的改变而不背离所要求保护的主题的范围。
1.0关键字提取技术
以下章节提供了关键字提取技术的概览、以及用于实践本技术的示例性过程和示例性体系结构。还提供了关键字提取技术的各实施例的细节。
1.1技术概览
本文所描述的关键字提取技术从URL中提取关键字。该技术使用URL的内容和结构来提取相关关键字。这些关键字随后可在各应用中使用,诸如例如在线广告和在线内容过滤。
1.2URL结构
因为本发明的关键字提取技术在提取关键字时使用URL结构,所以对URL结构的一些解释是有用的。URL的格式基于Unix文件路径句法,其中使用正斜杠来隔开目录或文件夹以及文件或资源名。每一个URL都由以下各项中的某些项组成:scheme name(方案名,通常被称为协议)、之后是冒号、随后取决于该方案是domain name(域名,可另选地,网际协议(IP)地址)、port number(端口号)、要取得资源的path(路径)或要运行的程序、query string(查询串)以及可任选的fragment identifier(片段标识符)。句法是scheme://domain:port/path?query_string#fragment_id。本文所描述的关键字提取技术使用这一URL格式来提取网页的关键字,该关键字可用于各种应用。并不需要下载网页以提取对应于所提取的关键字的网页的关键字。这提供了极高的计算效率。
1.3示例性过程
图1描绘了用于从URL中提取关键字的示例性计算机实现的过程。如图1所示,框102,标识URL的各分量。更具体地,在关键字提取技术的一个实施例中,URL被分成授权机构(authority)、路径(path)、查询(query)和片段(fragment)分量。
所标识的分量随后被拆分成各段,如框104中所示。例如,授权机构分量通过丢弃授权机构分量的协议字段和扩展字段而被拆分成各段;而路径分量通过丢弃与该URL所对应的网页的话题不相关的所有字段而被拆分成各段。查询分量通过提取查询字段中的键-值对而被拆分成各段;以及片段分量通过提取片段字段而被拆分成各段。在本文档的下文中将更详细地讨论关键字的分段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210067044.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:氨基甲酸酯化合物的制造方法
- 下一篇:多层双螺杆共挤出PET片材的生产线