[发明专利]一种基于多属性特征的文章推荐方法有效
申请号: | 202110418032.3 | 申请日: | 2021-04-19 |
公开(公告)号: | CN113158041B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 蔡世民;贺小雨;陈明仁 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/284;G06F16/33;G06K9/62;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 陈一鑫 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 属性 特征 文章 推荐 方法 | ||
1.一种基于多属性特征的文章推荐方法,该方法具体包括下列步骤:
步骤1:数据获取;
获取每一篇文章的数据包含作者、机构信息、文章标题文本、文章摘要文本、文章引文;根据获取的文章引文构建全部文章的引文网络,该引文网络表示全部文章之间的引用联系;根据作者、机构信息构建全部文章的异构网络,该异构网络表示全部文章之间关于作者、机构信息的联系;
步骤2:根据步骤1构建的引文网络计算每篇文章的struc2vec特征向量;
步骤3:根据步骤1获取的文章标题文本、文章摘要文本计算每篇文章的doc2vec特征向量;
步骤4:根据步骤1获构建的异构网络计算每篇文章的metapath2vec特征向量;
步骤5:对每一篇文章,选取A篇struc2vec特征相似度最高的文章、B篇doc2vec特征相似度最高的文章、C篇metapath2vec特征相似度最高的文章;将选出的所有文章与这篇文章在引文网络上建立联系,且将每条联系赋予权重,重构出一个含有多属性特征的引文网络;
步骤6:根据含有多属性特征的引文网络采用DeepWalk方法计算得到每篇文章的整体特征向量
步骤7:实际推荐时,对特定文章,选取整体特征向量相似度最高的多篇文章进行推荐。
2.如权利要求1所述的一种基于多属性特征的文章推荐方法,其特征在于,所述步骤1中获取每一篇文章数据的方法为:
步骤1.1:首先将多个空格、“\t”、“\n”、“^”符号后接的数字清洗掉;
步骤1.2:对于含有字符“@”的数据,“@”字符前面的一段连续字符认定为作者,“@”符号后面的一段连续字符认定为机构信息;针对剩下的数据中,利用“ins”、“insti”、“colle”、“cent”、“univ”关键字提取机构信息,再在剩下的数据在通过正则表达式提取作者;
步骤1.3:通过在维基百科上的学校名字或缩写,同时满足以下两个条件则确认是同一个作者:
a)机构信息的缩写是以“·”或“@”分割的邮箱信息的子串;
b)通过“@”字符得到的学者非全称姓名是通过正则表达式得到学者全称姓名的子串;
步骤1.4:根据文章信息直接获取文章标题文本、文章摘要文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110418032.3/1.html,转载请声明来源钻瓜专利网。