[发明专利]资讯画像构建方法及装置在审
申请号: | 202010917893.1 | 申请日: | 2020-09-03 |
公开(公告)号: | CN112036190A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 狄潇然 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/216 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 谷敬丽;吕俊刚 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资讯 画像 构建 方法 装置 | ||
1.一种资讯画像构建方法,其特征在于,包括:
利用TFIDF算法计算资讯中词语的IDF值,选择IDF值排序在前的预设数量个词语作为第一词集;
利用TEXTRANK算法计算资讯中词语的TextRank值,选TextRank值择排序在前的同样预设数量个词语作为第二词集;
以第一词集和第二词集的交集词语作为资讯画像的主题词;
以第二词集作为资讯画像的关键词,计算关键词的词向量;
根据所述关键词的词向量确定资讯词向量表征方式;
根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。
2.如权利要求1所述的资讯画像构建方法,其特征在于,还包括:
根据IDF值和TextRank值确定关键词权重。
3.如权利要求2所述的资讯画像构建方法,其特征在于,对属于第一词集和第二词集交集的词语的权重按照如下公式确定:
weights=TextRank值×IDF值;
对属于第二词集不属于第一词集的词语的权重按照如下公式确定:
weights=TextRank值;
其中,weights表示关键词权重;TextRank值表示关键词的TextRank值;IDF值表示关键词的IDF值。
4.如权利要求1所述的资讯画像构建方法,其特征在于,计算关键词的词向量,包括:
利用word2vector算法计算关键词的词向量。
5.如权利要求1所述的资讯画像构建方法,其特征在于,还包括:
计算关键词的词向量权重。
6.如权利要求5所述的资讯画像构建方法,其特征在于,按照如下公式计算关键词的词向量权重:
关键词的词向量权重=关键词权重×关键词的词向量。
7.如权利要求1所述的资讯画像构建方法,其特征在于,按照如下公式根据所述关键词的词向量确定资讯词向量表征方式:
资讯词向量表征方式=预设数量个关键词的词向量的平均值。
8.如权利要求2所述的资讯画像构建方法,其特征在于,还包括:
将关键词和关键词权重缓存到redis中。
9.如权利要求8所述的资讯画像构建方法,其特征在于,将关键词和关键词权重缓存到redis中,包括:
使用hash类型结构将关键词和关键词权重缓存到redis中,其中,hash类型结构包括key和value,其中,key为资讯id,value为预设数量个关键词及关键词权重。
10.如权利要求1所述的资讯画像构建方法,其特征在于,根据主题词、关键词和资讯词向量表征方式合并构建资讯画像,包括:
使用hive数据仓库加载主题词、关键词和资讯词向量表征方式;
根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。
11.一种资讯画像构建装置,其特征在于,包括:
第一词集确定模块,用于利用TFIDF算法计算资讯中词语的IDF值,选择IDF值排序在前的预设数量个词语作为第一词集;
第二词集确定模块,用于利用TEXTRANK算法计算资讯中词语的TextRank值,选TextRank值择排序在前的同样预设数量个词语作为第二词集;
主题词确定模块,用于以第一词集和第二词集的交集词语作为资讯画像的主题词;
关键词确定模块,用于以第二词集作为资讯画像的关键词;
词向量确定模块,用于计算关键词的词向量;
资讯词向量表征方式确定模块,用于根据所述关键词的词向量确定资讯词向量表征方式;
资讯画像构建模块,用于根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010917893.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:外呼短信文本审核方法及装置
- 下一篇:步态阵列服务器及其系统