[发明专利]一种基于多视图学习的科学主题提取方法有效

申请号：	201310416384.0	申请日：	2013-09-12
公开（公告）号：	CN103530316A	公开（公告）日：	2014-01-22
发明（设计）人：	王灿;王哲;卜佳俊;陈纯;于智	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵;黄美娟
地址：	310027 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于视图学习科学主题提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多视图学习的科学主题提取方法，该方法的特征在于：

1）从论文数据库中获取论文数据，作为即将进行科学主题提取的目标文档；

2）针对每个目标文档，提取该文档中的多个视图的数据信息，作为科学主题提取的依据；

3）根据不同视图数据信息的内容特点不同，对每个视图的数据信息进行简单的数据预处理；

4）针对每一个视图，将所有目标文档的数据信息表示成一个数据矩阵，每一个目标文档的数据信息是其中的一个行向量；

5）利用多视图学习的方法，借助多个视图的数据信息，对目标文档进行聚类，属于同一类的目标文档对应相同的科学主题；

6）对于每一类目标文档，分别提取它们的科学主题，科学主题以多个关键词的形式表示。

2.如权利要求1所述的基于多视图学习的科学主题提取方法，步骤2）中所述的多个视图的数据信息，其特征在于：

1）根据应用的实际需求和目标文档所包含数据信息的实际情况，选取t个不同视图的数据信息，论文数据主要包括文章的正文，标题，摘要，关键字，共同作者以及参考文献等多方面的数据信息，当选取其中的四种：标题，摘要，关键字，共同作者这四个视图的数据信息时，t＝4。

3.如权利要求2所述的基于多视图学习的科学主题提取方法，步骤3）中所述的根据不同视图数据信息的内容特点不同，对每个视图的数据信息进行简单的数据预处理，其特征在于：

1）对于论文数据的正文、标题、摘要，去掉所有停止词（a，the，or等使用频率很多但没有特定意义或明显区分价值的字或词，常为冠词、介词、副词或连词等)，将单词词干化，即去掉ed，ing等分词形式或ment等词缀，只保留词干形式；

2）对于论文数据的关键字、共同作者和参考文献不需要进行上述操作。

4.如权利要求3所述的基于多视图学习的科学主题提取方法，步骤4）中所述的针对每一个视图，将所有目标文档的数据信息表示成一个数据矩阵，每一个目标文档的数据信息是其中的一个行向量，其特征在于：

1）共同作者视图、关键字视图和参考文献视图处理方式相同，以共同作者视图为例，遍历所有目标文档的作者部分，统计所有不同的作者姓名，将每一个目标文档的共同作者视图用向量的形式表示，定义向量j表示第j个目标文档，m为所有文档的共同作者部分中不同作者的个数，取值0或1，如果第i个作者是第j个目标文档的作者之一，取值为1，否则取值为0；

2）论文正文视图、标题视图和摘要视图处理方式相同，以摘要视图为例，遍历所有目标文档的摘要部分，统计所有不同的单词，将每一个目标文档的摘要视图用向量的形式表示，定义向量j表示第j个目标文档，m为所有文档的摘要部分中不同单词的个数，表示第i个单词在向量v_f中的权重，用它的TF-IDF值表示，即dij=numj(i)total(words)·log(total(documents)dacuments(t)),]]>其中num_j(i)为在目标文档j的摘要部分中，第i个单词出现的个数，total（words）为目标文档j的摘要部分包含的单词总数，total（documents）为文档总数，documents（i）为摘要部分中含有第i个单词的文档的数目；

3）针对每一个视图，将每一个目标文档在该视图下对应的向量拼接起来构成一个数据矩阵，定义视图i对应的数据矩阵为W⁽ⁱ⁾（1≤t，t为视图个数），W⁽ⁱ⁾的每一个行向量就是该视图下每一个目标文档j的表示向量vj=[d1j,d2j,···,dmj].]]>

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310416384.0/1.html，转载请声明来源钻瓜专利网。

上一篇：二氧化硅纳米保温毡内保温结构及其施工工艺
下一篇：方钢管混凝土柱与工字钢梁的套管式节点及其加工方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多视图学习的科学主题提取方法有效

专利文献下载