[发明专利]一种基于语义分析与多重余弦定理的新闻分类方法有效

专利信息
申请号: 201710749893.3 申请日: 2017-08-28
公开(公告)号: CN107704500B 公开(公告)日: 2021-05-14
发明(设计)人: 龙华;祁俊辉;邵玉斌;杜庆治 申请(专利权)人: 昆明理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/295;G06F40/289;G06F40/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于语义分析与多重余弦定理的新闻分类方法,属于信息处理技术领域。本发明创新性地重新定义词权重,利用多重余弦定理,对现阶段的新闻分类方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词性、词长等加权累加,且特别针对人物、地点、专业术语等特殊词项还额外增加了权重;另一方面,对新闻计算其匹配度还使用了多重余弦定理,分别对其计算实意词匹配度和关键词匹配度,再由相关定义确定其属于何种新闻类别。
搜索关键词: 一种 基于 语义 分析 多重 余弦 定理 新闻 分类 方法
【主权项】:
一种基于语义分析与多重余弦定理的新闻分类方法,其特征在于:Step1:获取待分类新闻文本X,对待分类新闻文本X进行预处理:先采用命名实体识别技术,将待分类新闻文本X中特殊词项挑选出来,对剩余文本进行分词、去停用词、同义词替换等操作,生成待分类新闻文本X的实意词集合X:{x1,x2…xm},其中,实意词集合X:{x1,x2…xm}包含特殊词项;Step2:求权重:以TFIDF值为主,词性、词长为辅,遍历Step1中得到的待分类新闻文本X的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step3:选取关键词:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};Step4:对各预设新闻文本模板{P1,P2…Pq}同样进行如上步骤所述的预处理、求权重、选取关键词等操作,并将数据保存至数据库以备调用;其中,每个预设新闻文本模板Pi,i∈[1,q]对应一种新闻类别,即新闻共q个类别;Step4.1:计算实意词匹配度R(X,Pi),i∈[1,q]:以待分类新闻文本X的实意词集合X:{x1,x2…xm}和实意词权重集合Y:{y1,y2…ym},生成实意词特征向量FX={fx1,fx2…fxg},同样对预设新闻文本模板Pi,i∈[1,q]也以此生成实意词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的实意词匹配度R(X,Pi),i∈[1,q];Step4.2:计算关键词匹配度R(X',Pi),i∈[1,q]:以待分类新闻文本X的关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'},生成关键词特征向量FX'={fx'1,fx'2…fx'g},同样对预设新闻本文模板Pi,i∈[1,q]也以此生成关键词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的关键词匹配度R(X',Pi),i∈[1,q];Step5:对所有预设新闻文本模板{P1,P2…Pq},都依据Step4.1和Step4.2所计算实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q],因为一篇文章可能同属多类,故若1≥R(X,Pi)≥r,i∈[1,q]或r>R(X,Pi)≥(r‑r'),i∈[1,q],且1≥R(X',Pi)≥r,i∈[1,q]则认为此待分类新闻文本X属于该预设新闻文本模板Pi,i∈[1,q]所属的新闻类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710749893.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top