[发明专利]一种基于多视图学习的科学主题提取方法有效
申请号: | 201310416384.0 | 申请日: | 2013-09-12 |
公开(公告)号: | CN103530316A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 王灿;王哲;卜佳俊;陈纯;于智 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于多视图学习的科学主题提取方法,从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;对每个视图的数据信息进行简单的数据预处理并针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;利用多视图学习的方法,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;对于每一类目标文档,分别提取它们的科学主题,并以多个关键词的形式表示出来。本方法的优点在于,弥补了传统方法只考虑单一方面数据信息的不足,更好的利用多方面的数据信息,借助它们的互补关系和潜在主题的一致性辅助聚类,得到更好的科学主题提取效果。 | ||
搜索关键词: | 一种 基于 视图 学习 科学 主题 提取 方法 | ||
【主权项】:
一种基于多视图学习的科学主题提取方法,该方法的特征在于:1)从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;2)针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;3)根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理;4)针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;5)利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;6)对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310416384.0/,转载请声明来源钻瓜专利网。