[发明专利]分类树生成在审
申请号: | 201980040343.1 | 申请日: | 2019-06-14 |
公开(公告)号: | CN112352232A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | A·古铁雷斯·穆尼奥斯;S·亚帕拉吉特 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/95 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 刘田林 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 生成 | ||
1.一种生成针对域的分类树的方法,所述方法包括:
从文档索引收集所述域的文档的层次结构;
针对所述层次结构中的每个层次结构的每个节点提取类别;
将所提取的所述类别作为多维类别向量嵌入到多维向量空间中;
将所述多维类别向量分组为多个组,第一组的所述多维类别向量比第二组的所述多维类别向量更满足针对所述第一组的相似性条件,每组所述多维类别向量构成类别簇,每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别的多维类别向量;以及
生成所述分类树,其中每个类别簇被插入作为所述分类树的类别节点。
2.根据权利要求1所述的方法,其中所述嵌入操作包括:
将所提取的所述类别和关联的祖先-后代关系作为多维类别向量嵌入到所述多维向量空间中。
3.根据权利要求1所述的方法,其中所述分组操作包括:
将所述多维类别向量分组为多个组,所述第一组的所述多维类别向量比所述第二组的所述多维类别向量更满足针对所述第一组的相似性条件,每组所述多维类别向量构成类别簇,每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别和关联的祖先-后代关系的多维类别向量。
4.根据权利要求1所述的方法,其中所述提取操作包括:
针对所述层次结构中的每个层次结构的每个节点提取祖先-后代关系;以及
将每个节点的所提取的所述祖先-后代关系分配给所述节点的所述类别所对应的所述类别簇,
并且所述生成操作包括:
基于每个类别簇的所分配的所述祖先-后代关系,从所述分类树中的每个类别簇创建分支。
5.根据权利要求1所述的方法,其中所述生成操作包括:
基于从来自所述文档索引的所述域的所述文档的所述层次结构收集的分支统计,从所述分类树的每个类别节点生成分支。
6.根据权利要求1所述的方法,其中所述分类树包括来自共同节点的重复分支,并且所述生成操作包括:
将所述重复分支合并到来自所述分类树中的所述共同节点的单个分支。
7.根据权利要求1所述的方法,其中所述生成操作包括:
从所述层次结构的类别标签中为所述分类树的每个节点选择类别标签。
8.根据权利要求1所述的方法,其中所述嵌入操作包括:
将所提取的所述类别作为多维类别向量嵌入到所述多维向量空间中,所述多维向量空间是从域特定文本的域特定嵌入生成的。
9.一种用于生成针对域的分类树的计算系统,所述计算系统包括:
一个或多个处理器;
层次提取器,由所述一个或多个处理器执行并被配置以从文档索引收集所述域的文档的层次结构并且针对所述层次结构中的每个层次结构的每个节点提取类别;
类别嵌入器,由所述一个或多个处理器执行并被配置以将所提取的所述类别作为多维类别向量嵌入到多维向量空间中;
类别合并器,由所述一个或多个处理器执行并被配置以将所述多维类别向量分组为多个组,第一组的所述多维类别向量比第二组的所述多维类别向量更满足针对所述第一组的相似性条件,每组所述多维类别向量构成类别簇,每个类别簇包括针对来自所述层次结构的不同层次水平的所提取的类别的多维类别向量;以及
分类体系生成器,由所述一个或多个处理器执行并被配置以生成所述分类树,其中每个类别簇被插入作为所述分类树的类别节点。
10.根据权利要求9所述的计算系统,其中所述类别嵌入器进一步被配置以将所提取的所述类别和关联的祖先-后代关系作为多维类别向量嵌入到所述多维向量空间中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980040343.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:超紧凑型宽视场透镜组件
- 下一篇:家长控制监视系统及方法