[发明专利]将分层内容归类成深度分类无效
申请号: | 201110128798.4 | 申请日: | 2011-05-10 |
公开(公告)号: | CN102243645A | 公开(公告)日: | 2011-11-16 |
发明(设计)人: | R·卡利迪;L·塞加尔;O·伊莱亚达 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 蔡悦 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分层 内容 归类 深度 分类 | ||
技术领域
本发明涉及计算机领域,尤其涉及计算机领域中的数据分类。
背景技术
出于广告和其他目的可使用对诸如网页、电子邮件消息或文字处理文档等文档的归类来确定相关性。可使用用户对诸如某一网页的兴趣来确定用户的喜好和不喜好,随后向用户提供有针对性的广告。
发明内容
可通过遍历分层归类树并且将文档中的单词与文档中表示归类树上的节点的的单词作比较来对文档归类。可通过遍历分类树并且基于单词比较来生成比较分数来对文档归类。可使用分数来修整归类树或前进到树的另一节点。分数可基于文档中的各个单词的相比于类别中的单词的稀缺性或重要性的稀缺性或重要性。结果可以是一组归类,并带有那些归类的分数。
提供本发明内容以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。
附图说明
在附图中,
图1是示出具有文档归类器的系统的实施例的图示。
图2是示出用于分析分类的方法的实施例的流程图。
图3是示出用于分析文档以归类的方法的实施例的流程图。
图4是示出示例分类的实施例的图示。
图5是示出用于遍历分类的第一方法的实施例的流程图。
图6是示出用于遍历分类的第二方法的实施例的流程图。
具体实施方式
可通过爬行分类并且将文档中的单词与由分类节点表示的单词作比较来将文档归类到归类分类中。可在每一节点进行与其他节点的比较以确定爬行器接着可移至的最有可能的节点。归类操作的结果可以是文档可属于的一个或多个归类。
归类系统可将文档的单词与其他文档的表示归类分类中的节点的单词作比较。比较可使用重要性、稀缺性或稀有性来对单词加权,并且生成比较的分数。较高的分数表示文档与节点之间较高的相似性,并且可反映归类的强度。
归类系统可通过以当前节点开始随后将当前节点与当前节点的任何子节点作比较来遍历该分类。每一比较可通过生成当前文档与表示各种节点的文档之间的分数来进行。
在一个实施例中,分数可被组织成排序列表。排序列表可包括带有其各自分数的每一节点,并且可使用最高分数或最佳匹配在列表顶部排序。可从列表顶部中拉取要分析的下一节点。可以不考虑相似性分数比其父节点小的节点。在这一实施例中,可评估分类的许多分枝以标识最佳匹配。
在另一实施例中,可通过选择从中最有可能找到最相关的项的分支来遍历分类。可通过将父节点中的项的重要性与子节点中的项的重要性作比较来确定每一项的相关性。可使用各项的本地相关性来对各项加权,并且如果有的话则选择子节点来继续遍历。在这一实施例中,可在单个路径中遍历分类树。
在这两个实施例,文档和节点可被作为‘单词包(abag of words)’来对待。单词包可以仅仅是文档中的所有单词而不考虑顺序。在许多实施例中,‘单词’可以是单元词(unigram)、双元词(bigram)、三元词(trigram)或其他组的串元素。各n元词(n-gram)可指代字符串或单词串。在某些情况下,‘单词’可以是单词的一部分,诸如前缀、词根(roots)以及后缀。贯穿本说明书和权利要求书,术语‘单词’应被解释为字符串,它可以是单元词子集,或者可以是双元词、三元词或其他n元词,并且还可包括单词串或短语串。
本说明书通篇中,在所有附图的描述中,相似的附图标记表示相同的元素。
在将元素称为被“连接”或“耦合”时,这些元素可以直接连接或耦合在一起,或者也可以存在一个或多个中间元素。相反,在将元素称为被“直接连接”或“直接耦合”时,不存在中间元素。
本发明主题可被具体化为设备、系统、方法、和/或计算机程序产品。因此,本发明的部分或全部能以硬件和/或软件(包括固件、常驻软件、微码、状态机、门阵列等)来具体化。此外,本发明可以采用其上包含有供指令执行系统使用或结合其使用的计算机可使用或计算机可读程序代码的计算机可使用或计算机可读存储介质上的计算机程序产品的形式。在本文的上下文中,计算机可使用或计算机可读介质可以是可包含、存储、通信、传播、或传输程序以供指令执行系统、装置或设备使用或结合其使用的任何介质。
计算机可使用或计算机可读介质可以是,例如,但不限于,电、磁、光、电磁、红外、或半导体系统、装置、设备或传播介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110128798.4/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法