[发明专利]分类树生成在审
申请号: | 201980040343.1 | 申请日: | 2019-06-14 |
公开(公告)号: | CN112352232A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | A·古铁雷斯·穆尼奥斯;S·亚帕拉吉特 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/95 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 刘田林 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 生成 | ||
计算系统以无监督的方式(例如,无人为干预)生成用于域的分类树。从文档索引收集域的文档的层次结构。为每个层次结构的每个节点提取类别。将提取的类别作为多维类别向量嵌入到多维向量空间中。将多维类别向量分组为多个组,第一组的多维类别向量比第二组的多维类别向量更满足针对第一组的相似性条件。多维类别向量的每个组构成一个类别簇。每个类别簇包括针对来自层次结构的不同层次水平的所提取类别的多维类别向量。生成分类树,其中每个类别簇作为分类树的类别节点而被插入。
背景技术
计算系统已经被成功编程以理解人类语言的语法。然而,向计算机系统提供对人类语言隐含含义的理解和欣赏是另一不同且更具挑战性的目标。例如,计算机系统可以在数据集合中检测到术语“塔科马”,但可能无法区分华盛顿州的城市“塔科马”和皮卡车型号“塔科马”。在人为监督的技术中,人为领域专家可以提供隐含含义,但是无监督计算系统无法访问此类人为提供的含义。这样,无监督计算系统在对人类语言的理解上往往不如受监督计算系统准确,但是人为监督比无监督技术昂贵且可扩展性较差。然而,计算系统无法以近乎人类的准确性识别人类语言中的含义可能降低数据搜索、网络搜索、产品推荐、拼写检查、语音到文本和文本到语音转换、人类-计算机言语交互、数据分类和其他计算服务的价值。
发明内容
所描述的技术提供了以无监督方式(例如,无人为干预)生成针对域的分类树。从文档索引收集所述域的文档的层次结构。针对所述层次结构中的每个层次结构的每个节点提取类别。将所提取的所述类别作为多维类别向量嵌入到多维向量空间中。将所述多维类别向量分组为多个组,第一组的所述多维类别向量比第二组的所述多维类别向量更满足针对所述第一组的相似性条件。每组所述多维类别向量构成类别簇。每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别的多维类别向量。生成所述分类树,其中每个类别簇被插入作为所述分类树的类别节点。
提供本发明内容以简化形式介绍一系列概念,这些概念将在下面的具体实施方式中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
本文还描述和讲述了其他实施方式。
附图说明
图1示出了示例性主题提取计算系统。
图2示出了用于从非结构化文本中提取针对域的类别的示例性类别提取器。
图3示出了用于从结构化web文档中提取针对域的分类树的示例性分类树提取器。
图4示出了示例性类别合并以增强从分层web文档结构中提取针对域的统一分类树的准确性。
图5示出了用于生成针对域的分类树的示例性操作。
图6示出了可以用于实施所描述的技术以生成针对域的分类树的示例性计算设备。
具体实施方式
计算系统可以通过构造分类树(结构化类别集合)以自动化方式或半自动化方式为域(例如,行业、研究领域)确定短语(例如,主题)的准确含义,那些短语可被准确分类到所述分类树中。域数据可以按本质而被结构化,例如以web文档的层次结构的形式(e.g.,“products.office.com/en-us/business/small-business-solutions”),或者可以是非结构化的,例如从web搜索中捕获的文本术语集合的形式(例如,查询、网页标题、web网页的文本环境或来自选定搜索结果的文本),分类树和主题从所述域数据来构建。在所描述的技术中,结构化域和非结构化域两者可以组合使用,以获取和细化即使对于例如万维网这样的大型高度异构文档集合而言也很准确的域特定主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980040343.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:超紧凑型宽视场透镜组件
- 下一篇:家长控制监视系统及方法