[发明专利]一种新闻文本分类方法以及装置在审
申请号: | 201810700701.4 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108829889A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 杨涛;王肃;杨耀威;李彩虹 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 张海洋 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相关度 新闻关键词 新闻文本 分类 领域关键词 分类新闻 文本 关键词提取 表征领域 分类结果 分类需求 预先生成 申请 词汇 弱化 | ||
1.一种新闻文本分类方法,其特征在于,包括:
对待分类新闻文本进行关键词提取;
基于所提取的新闻关键词,与领域相关度词典中所包括的领域关键词之间的相关度,确定提取的新闻关键词与预先生成的领域相关度词典所表征的领域之间的相关度;其中,所述领域关键词包括:领域名称词和/或与该领域名称词所表征领域相关的领域相关词;
基于所述新闻关键词与所述领域之间的相关度,确定所述新闻关键词所属待分类新闻文本的分类。
2.根据权利要求1所述的方法,其特征在于,所述领域相关度词典根据下述步骤生成:
从预设平台获取语料;
采用预先训练得到的分词模型对所述语料进行分词处理,得到关键词集,其中,所述关键词集包括:关键词以及每两个关键词之间的第一相关度;
从所述关键词集中确定表征各领域的领域名称词;
针对每个领域名称词,根据关键词集中的各关键词与该领域名称词之间的第一相关度,确定该领域名称词对应的关键词集合,并基于确定的关键词集合和该领域名称词生成对应的领域相关度词典。
3.根据权利要求2所述的方法,其特征在于,针对每个领域名称词,根据关键词集中的各关键词与该领域名称词之间的第一相关度,确定该领域名称词对应的关键词集合,并基于确定的关键词集合和该领域名称词生成对应的领域相关度词典,包括:
针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度按照从高到低的顺序进行排序;并将前预设数量第一相关度对应的关键词以及该领域名称词构成的集合确定为对应的领域相关度词典;或者
针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度达到预设相关度阈值的关键词以及该领域名称词构成的集合确定为对应的领域相关度词典。
4.根据权利要求1所述的方法,其特征在于,所述领域关键词包括与领域名称词对应的领域相关词;所述领域相关度词典中还包括领域名称词与各领域相关词之间的第一相关度;
采用如下方式确定所述新闻关键词与对应领域相关度词典所表征领域之间的相关度:
确定新闻关键词分别与对应领域相关度词典中各领域相关词之间的第二相关度;
针对每个第二相关度,确定与该第二相关度对应领域相关词所对应的第一相关度与该第二相关度的乘积;将所述乘积确定为所述新闻关键词与所述领域关键词之间的相关度;
将各乘积相加得到的和确定为所述新闻关键词与对应领域相关度词典所表征领域之间的相关度。
5.根据权利要求1所述的方法,其特征在于,所述领域关键词包括领域名称词;所述领域相关度词典中还包括领域名称词与各领域相关词之间的第一相关度;
采用如下方式确定所述新闻关键词与对应领域相关度词典所表征领域之间的相关度:
确定新闻关键词与对应领域相关度词典中领域名称词之间的第二相关度;
确定所述第二相关度分别和对应领域名称词对应的各第一相关度之间的乘积;将所述乘积确定为所述新闻关键词与所述领域关键词之间的相关度;
将各乘积相加得到的和确定为所述新闻关键词与对应领域相关度词典所表征领域之间的相关度。
6.根据权利要求1所述的方法,其特征在于,采用如下方式对待分类新闻文本进行关键词提取:
获取待分类新闻标题以及对应新闻正文;
对所述待分类新闻标题以及对应新闻正文进行合成处理,得到待处理新闻文本;
对合成后的待分类新闻文本进行分词处理;
将分词处理得到的词中,有效的且具有名词属性的词确定为提取的新闻关键词。
7.如权利要求6所述的方法,其特征在于,基于所述新闻关键词与所述领域关键词之间的相关度,确定所述新闻关键词所属待分类新闻文本的分类,具体包括:
针对每个领域,将待分类新闻文本提取的各新闻关键词与该领域之间的相关度相加,得到所述待分类新闻文本与该领域之间的相关度;
根据所述待分类新闻文本与多个领域之间的相关度,确定所述待分类新闻文本所属领域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810700701.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种非关系型数据库文档管理方法及装置
- 下一篇:一种新型信息化数据的整合方法