[发明专利]基于深度学习的科研学术新闻关键字匹配推荐方法有效
申请号: | 201911408925.9 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111061939B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 孟海宁;冯锴;朱磊;白涛;王锋;石月开;童新宇;姚燕妮;董林靖;陈毅 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/289;G06V10/762;G06V10/22;G06V40/16 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 张皎 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 科研 学术 新闻 关键字 匹配 推荐 方法 | ||
1.基于深度学习的科研学术新闻关键字匹配推荐方法,其特征在于,具体包括以下步骤:
步骤1,网站管理员输入科研新闻数据和学术、科研论文数据;
步骤2,新闻数据集成到新闻数据库,学术、科研论文数据集成到论文库;
步骤3,新闻分为图片新闻和文字新闻,图片新闻通过构建BOW模型进行图片识别,从而提取出图片中的文字和人物信息;对于文字新闻采用对新闻分词处理和词汇概率统计手段相结合的手段对文字新闻进行处理,最终集合两者的数据形成新闻关键词库;
步骤4,提取论文库的论文中自带的关键词数据形成关键词集合,接着是对于论文的标题、正文采用sentence2vec的C-bow方法进行语义识别,最终集合两者的数据形成论文关键词库,具体包括:
对于论文的标题和正文部分采用centence2vec的C-bow方法进行处理,在C-bow方法里,训练目标是给定一个word的context,预测word的概率;
训练过程中新增了paragraph id,即训练语料中每个句子都有一个唯一的id,paragraph id和普通的word一样,先映射成一个向量,即paragraph vector;paragraphvector与word vector的维数虽一样,但是来自于两个不同的向量空间;在之后的计算里,paragraph vector和word vector累加或者连接起来,作为输出层softmax的输入;在一个句子或者文档的训练过程中,paragraph id保持不变,共享着同一个paragraph vector;
在预测阶段,给待预测的句子新分配一个paragraph id,词向量和输出层softmax的参数保持训练阶段得到的参数不变,重新利用梯度下降训练待预测的句子;待收敛后,即得到待预测句子的paragraph vector,先利用中文sentence语料训练句或词向量,然后通过计算句向量之间的cosine值,得到最相似的句子或词;
步骤5,对新闻关键词库和论文关键词库进行整合,构建word2vec模型并且对模型进行训练,旨在挖掘关键词之间的关系,最终达到的效果是:输入任一关键词,能够根据输入的关键词对关键词库进行遍历,从而得到一个与关键词相关性由大到小的数据集,这个数据集将是我们进行推荐工作的基准;
步骤6,当用户浏览某一新闻时,该新闻的关键词就作为输入的数据,针对该关键词遍历论文关键词库,从而得到一个与关键词相关性递减的数据集;
步骤7,根据得到的关键词,数据集查询论文库,找寻若干篇与输入新闻相干的论文形成推荐列表进行论文推荐;
步骤8,定期重复步骤3、4、5,因为两个数据库不断增大,需要对模型进行重复训练,以提高推荐数据集的准确率。
2.根据权利要求1所述的基于深度学习的科研学术新闻关键字匹配推荐方法;其特征在于,步骤3中,科研新闻的处理和提取关键词步骤分为两大类:图片新闻和文字新闻,具体步骤如下:
步骤3.1,对于科研新闻中的图片新闻来说,通过构建BOW模型和码本来分解图像并识别:具体有两种途径,第一种是提取图片中的文字,进行分词处理形成关键词词库并与论文关键词库进行对比;第二种是对于图片中的人物进行人脸识别并与已录入的科研工作者库相对比,对于图片科研新闻中出现过的人物,如果论文库中有与该人物重合的作者所著论文则针对此新闻推荐该作者的论文,以发表时间最近优先为推荐顺序标准;
步骤3.2,对于科研新闻中的文字新闻,采用分词方法与统计手段相结合的方式进行处理;统计新闻标题和正文中出现词汇的次数,除去一些所有新闻所共由的词汇,从而将出现频率最高的词汇作为该新闻的关键词,考虑到新闻标题中出现词汇比较能概括新闻大意,所以新闻中关键词的权重要比正文中出现的词汇要高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911408925.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金属锆母体原料用电熔氧化锆的制备方法
- 下一篇:一种管件下料卡紧工装