[发明专利]一种基于用户画像的专利推荐方法在审
申请号: | 201911059719.1 | 申请日: | 2019-11-01 |
公开(公告)号: | CN110781207A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 李学俊;严文强 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F16/2452 | 分类号: | G06F16/2452;G06F16/2457;G06F16/215 |
代理公司: | 34158 合肥方舟知识产权代理事务所(普通合伙) | 代理人: | 朱荣 |
地址: | 230601 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 画像 向量表示 构建 词频 神经网络模型 自然语言处理 关键词提取 搜索关键词 相似度排序 推荐系统 兴趣爱好 用户推荐 原始参数 专利特征 冷启动 分词 收藏 输出 转化 | ||
1.一种基于用户画像的专利推荐方法,该方法包括以下步骤:
S1、在推荐系统中输入原始参数:
需要输入的参数包括被推荐用户ru的Id、所述的用户ru希望推荐的专利数量topN和其收藏的专利列表collectPatentList,以及其用以搜索的关键词列表searchKeywordList;系统中所有的专利列表patentList;
S2、利用分词技术和关键词提取技术来构建每一个专利的画像:
对于所述的patentList中的每一个专利,首先将其标题和摘要合并成一个长文本,得到每一个专利的专利摘要文档,然后对所述的专利摘要文档利用分词技术分词,得到每一个专利的词语列表,再利用关键词提取算法对所述的词语列表提取最能代表该专利的关键词集合,构成每一个专利的画像patentProfilei,所述的patentProfilei的集合即构成patentList的专利画像集合patentProfile;
S3、利用用户ru收藏的专利列表和搜索关键词列表来构建用户画像:
从所述的patentProfile中找到所述的collectPatentList中每一个专利相对应的专利画像lovePatentProfilej,然后利用lovePatentProfilej构成用户ru喜欢的专利关键词集合lovePatentProfile;将所述的lovePatentProfile和所述的searchKeywordList合并,然后去重,得到用户ru的用户画像userProfile;
S4、利用神经网络模型分别把所有专利的画像和用户ru的用户画像转化成向量表示:
利用神经网络模型将所述的patentProfilei和userProfile分别转化成平均向量,得到该专利的画像向量patentProfileVeci和用户ru的用户画像向量userProfileVec;
其中,构建所述的神经网络模型的步骤包括:
(1)对所有的专利文本数据源进行清洗,准备训练的语料;
(2)将所述的语料中每个专利的摘要和权利要求书的文本切割成句子列表;
(3)利用所述的句子列表构造一个句子迭代器;
(4)另外再构造一个分词器;
(5)将所述的句子迭代器和分词器作为神经网络的训练参数,构造word2vec神经网络;
(6)开始训练;
(7)把训练好的结果保存起来即为神经网络模型;
S5、按照相似度排序输出推荐列表给ru:
利用余弦相似度计算公式分别对于所述的patentProfileVeci与userProfileVec计算相似度,然后按照相似度排序,把相似度高的前topN个专利推荐给用户ru。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911059719.1/1.html,转载请声明来源钻瓜专利网。