[发明专利]一种新闻事件聚类的方法、装置、设备和储存介质在审
申请号: | 201810155131.5 | 申请日: | 2018-02-23 |
公开(公告)号: | CN108334628A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 王云;刘丹;肖天鹤 | 申请(专利权)人: | 北京东润环能科技股份有限公司;北京绿色东方数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100192 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种新闻事件聚类的方法、装置、设备和储存介质。所述方法,包括:抓取预设网站中的新闻文本;对新闻文本进行分词、词性标注和命名实体识别,得到对应的文本分词;比较两个新闻文本对应的文本分词中预设类型文本分词的分词相似度,赋予对应的分词相似度权重;比较两个新闻文本的文本内容相似度,赋予对应的文本内容相似度权重;根据两个新闻文本的分词相似度、分词相似度权重、文本内容相似度和文本内容相似度权重,确定两个新闻文本的相似度;当两个新闻文本的相似度大于相似度阈值,确定两个新闻文本为相似新闻事件。本发明实施例的技术方案,实现鉴别相同新闻事件,节约用户浏览新闻的时间。 | ||
搜索关键词: | 相似度 新闻文本 分词 文本内容 新闻事件 权重 文本分词 储存介质 聚类 预设 抓取 词性标注 命名实体 用户浏览 网站 赋予 鉴别 节约 | ||
【主权项】:
1.一种新闻事件聚类的方法,其特征在于,包括:抓取预设网站中的新闻文本;对所述新闻文本进行分词、词性标注和命名实体识别,得到对应的文本分词;比较两个所述新闻文本对应的文本分词中预设类型文本分词的分词相似度,赋予对应的分词相似度权重;其中,所述预设类型文本分词包括时间名词、地理名称和命名实体;根据两个所述新闻文本对应的文本分词中词性为名词和动词的所述文本分词,比较两个所述新闻文本的文本内容相似度,赋予对应的文本内容相似度权重;根据两个所述新闻文本的所述分词相似度、所述分词相似度权重、所述文本内容相似度和所述文本内容相似度权重,确定两个所述新闻文本的相似度;当两个所述新闻文本的相似度大于相似度阈值,确定两个所述新闻文本为相似新闻事件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京东润环能科技股份有限公司;北京绿色东方数据技术有限公司,未经北京东润环能科技股份有限公司;北京绿色东方数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810155131.5/,转载请声明来源钻瓜专利网。