[发明专利]一种新闻信息处理方法、新闻推荐方法和相关装置有效
申请号: | 201510509331.2 | 申请日: | 2015-08-18 |
公开(公告)号: | CN105022840B | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 侯立莎 | 申请(专利权)人: | 新华网股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100031 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种新闻信息处理方法、新闻推荐方法和相关装置。方法包括:获取新闻的文字内容;对新闻的文字内容进行分词处理,获得多个字词;计算每个字词的词向量;计算每个字词的tfidf值;分别以每个字词的tfidf值为权重,将新闻的所有词向量累加求和,计算得到新闻的特征向量;利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇;将得到的所有类簇以及每个类簇的中心向量存储在数据库中。本发明实现了将相似度较高的新闻分为一个类簇,并将每个类簇存储于数据库中。那么当需要推荐新闻时,本发明可以将该新闻对应的类簇中的其他新闻推荐给用户。 | ||
搜索关键词: | 类簇 特征向量 文字内容 相关装置 信息处理 词向量 数据库 存储 分词处理 累加求和 文本聚类 中心向量 相似度 聚类 权重 分组 | ||
【主权项】:
一种新闻信息处理方法,其特征在于,包括:获取新闻的文字内容;对所述新闻的文字内容进行分词处理,获得多个字词;计算每个字词的词向量;计算每个字词的词频‑逆文档频tfidf值;分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量;将得到的所有类簇以及每个类簇的中心向量存储在数据库中;当需要为用户推荐新闻时,检测用户当前浏览的新闻的正文内容,并从所述数据库中查找是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;如果有,将与所述特征向量相对应的类簇中的其他新闻推荐给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华网股份有限公司,未经新华网股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510509331.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于特征子空间的新闻分类方法及系统
- 下一篇:信息拦截方法及装置