[发明专利]一种基于语义分析与多重余弦定理的新闻分类方法有效
申请号: | 201710749893.3 | 申请日: | 2017-08-28 |
公开(公告)号: | CN107704500B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 龙华;祁俊辉;邵玉斌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/289;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于语义分析与多重余弦定理的新闻分类方法,属于信息处理技术领域。本发明创新性地重新定义词权重,利用多重余弦定理,对现阶段的新闻分类方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词性、词长等加权累加,且特别针对人物、地点、专业术语等特殊词项还额外增加了权重;另一方面,对新闻计算其匹配度还使用了多重余弦定理,分别对其计算实意词匹配度和关键词匹配度,再由相关定义确定其属于何种新闻类别。 | ||
搜索关键词: | 一种 基于 语义 分析 多重 余弦 定理 新闻 分类 方法 | ||
【主权项】:
一种基于语义分析与多重余弦定理的新闻分类方法,其特征在于:Step1:获取待分类新闻文本X,对待分类新闻文本X进行预处理:先采用命名实体识别技术,将待分类新闻文本X中特殊词项挑选出来,对剩余文本进行分词、去停用词、同义词替换等操作,生成待分类新闻文本X的实意词集合X:{x1,x2…xm},其中,实意词集合X:{x1,x2…xm}包含特殊词项;Step2:求权重:以TFIDF值为主,词性、词长为辅,遍历Step1中得到的待分类新闻文本X的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step3:选取关键词:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};Step4:对各预设新闻文本模板{P1,P2…Pq}同样进行如上步骤所述的预处理、求权重、选取关键词等操作,并将数据保存至数据库以备调用;其中,每个预设新闻文本模板Pi,i∈[1,q]对应一种新闻类别,即新闻共q个类别;Step4.1:计算实意词匹配度R(X,Pi),i∈[1,q]:以待分类新闻文本X的实意词集合X:{x1,x2…xm}和实意词权重集合Y:{y1,y2…ym},生成实意词特征向量FX={fx1,fx2…fxg},同样对预设新闻文本模板Pi,i∈[1,q]也以此生成实意词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的实意词匹配度R(X,Pi),i∈[1,q];Step4.2:计算关键词匹配度R(X',Pi),i∈[1,q]:以待分类新闻文本X的关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'},生成关键词特征向量FX'={fx'1,fx'2…fx'g},同样对预设新闻本文模板Pi,i∈[1,q]也以此生成关键词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的关键词匹配度R(X',Pi),i∈[1,q];Step5:对所有预设新闻文本模板{P1,P2…Pq},都依据Step4.1和Step4.2所计算实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q],因为一篇文章可能同属多类,故若1≥R(X,Pi)≥r,i∈[1,q]或r>R(X,Pi)≥(r‑r'),i∈[1,q],且1≥R(X',Pi)≥r,i∈[1,q]则认为此待分类新闻文本X属于该预设新闻文本模板Pi,i∈[1,q]所属的新闻类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710749893.3/,转载请声明来源钻瓜专利网。
- 上一篇:电风梳(FDD‑016)
- 下一篇:电吹风(FDD‑056)