[发明专利]一种新闻分类方法和系统有效
申请号: | 202011547928.3 | 申请日: | 2020-12-24 |
公开(公告)号: | CN113010669B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 史云飞;伊文超;赵国强;朱利霞 | 申请(专利权)人: | 华戎信息产业有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/951;G06F40/242;G06F40/289;G06K9/62 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 朱晓熹 |
地址: | 250000 山东省济南市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 分类 方法 系统 | ||
1.一种新闻分类方法,其特征在于,包括:
根据新闻的分类需求,定义新闻的分类目录,其中,所述分类目录包括新闻类别;
根据所述分类目录,设置与所述分类目录中每一新闻类别对应的分类关键词;
获取待分类新闻,提取所述待分类新闻的多种分类特征;
分别根据每种所述分类特征与所述分类关键词之间的相似度,划分所述待分类新闻的新闻类别;
所述分别根据每种分类特征与所述分类关键词之间的相似度,划分所述待分类新闻的新闻类别的步骤,包括:
计算所述待分类新闻中的特征关键词与所述分类关键词之间的关键词相似度;
计算所述待分类新闻中的实体信息与所述分类关键词之间的实体相似度;
计算所述待分类新闻的文本向量与所述新闻类别对应的特征向量之间的向量相似度;
分别根据所述待分类新闻的关键词相似度、实体相似度和向量相似度的相似度权重,确定所述待分类新闻所属的新闻类别;
特征关键词是通过textRank算法,提取待分类新闻中的出现频率topN个关键词得到的,其中,N大于1,且为正整数;
所述计算待分类新闻的文本向量与所述新闻类别对应的特征向量之间的向量相似度的步骤,包括:
查找所述待分类新闻中与所述特征向量中分类关键词的词义相同的词语,作为所述特征关键词;
根据所述特征关键词在所述待分类新闻中出现的频率,计算所述特征关键词的分类权重;
使用所述分类权重,生成所述待分类新闻的文本向量;具体方法如下:计算某个词的词频率,该词频率为词频/所有关键词出现的总次数,统计该词频率是否大于或等于预设阈值,若是则设置权重为10;若否,则设置权重为5;
计算所述文本向量与所述特征向量之间的向量内积,得到所述向量相似度;
所述计算待分类新闻的文本向量与所述新闻类别对应的特征向量之间的向量相似度的步骤之前,所述方法还包括:
根据所述分类关键词所属的词典类型,分别为每一所述分类关键词设置分类权重;
按照所述分类权重对每一所述分类关键词进行排序,得到与每一新闻类别对应的所述特征向量;
其处理过程为:将所有类别的关键词构建一个统一的词袋,该词袋为所有分类关键词去重后的集合;为该词袋中的每一个分类关键词分配对应的权重。
2.根据权利要求1所述的新闻分类方法,其特征在于,所述根据分类目录,设置与所述分类目录中每一新闻类别对应的分类关键词的步骤,包括:
分别为所述分类目录中每一层级的新闻类别设置对应的核心词典,其中,所述核心词典包括核心分类关键词;
使用所述核心分类关键词检索新闻,从所述新闻中提取与所述核心分类关键词对应的关键词,作为扩充分类关键词;
使用所述扩充分类关键词,分别为所述分类目录中每一层级的新闻类别设置扩充词典;
融合所述核心词典中的核心分类关键词与所述扩充词典中的扩充分类关键词,形成分别与每一新闻类别对应的所述分类关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华戎信息产业有限公司,未经华戎信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011547928.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:窗台防水方法及技术
- 下一篇:一种魔芋种植室的温控系统