[发明专利]一种基于主题模型的跨语言层次分类体系匹配方法有效
申请号: | 201710441927.2 | 申请日: | 2017-06-13 |
公开(公告)号: | CN107391565B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 漆桂林;崔轩;吴天星 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F16/36;G06F16/903 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 唐红 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于主题模型的跨语言层次分类体系匹配方法,首先根据给定的两个不同语言层次分类体系产生相对应的背景文本,并对每个分类候选值进行预筛选;然后使用先前产生的背景文本作为语料库,使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,接下来采用典型关联分析算法对两种不同语言的语料库对应的高维主题分布进行空间向量映射,最后对映射后每个分类的每个预筛选候选值进行计算其余弦相似度,并判断该候选值是否可以作为该分类的一个最相关分类。本发明能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关的分类。 | ||
搜索关键词: | 一种 基于 主题 模型 语言 层次 分类 体系 匹配 方法 | ||
【主权项】:
一种基于主题模型的跨语言层次分类体系匹配方法,其特征在于:依次包括以下步骤:(1)根据给定的两个层次分类体系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分别表示两种不同的语言,V表示层次分类体系中的分类结点,E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值:(2)使用所述步骤(1)中产生的背景文本作为语料库使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中;(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710441927.2/,转载请声明来源钻瓜专利网。
- 上一篇:数据转换方法、装置以及电子设备
- 下一篇:展示多媒体数据的方法及装置