[发明专利]一种新闻稿件主题分类及审核方法在审

专利信息
申请号: 201811189190.0 申请日: 2018-10-12
公开(公告)号: CN109344256A 公开(公告)日: 2019-02-15
发明(设计)人: 钟坤华;刘曙光;林小光;陈芋文;孙启龙 申请(专利权)人: 中国科学院重庆绿色智能技术研究院
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 赵荣之
地址: 400714 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 新闻稿件 敏感 审核 命中 主题分类 概率 词汇 发布 人工智能应用 应用人工智能 词汇过滤 词汇统计 概率分布 稿件数据 媒体行业 审核结果 文字匹配 主题分析 主题模型 最大概率 阈值判定 大数据 敏感词 重构的 采编 构建 稿件 输出 分类 分析 统计
【说明书】:

发明涉及一种新闻稿件主题分类及审核方法,属于人工智能应用领域,包括步骤1.基于现有的已发布的稿件数据集构建LDA主题模型;2.设置可发布主题、可发布主题概率阈值、敏感词汇集、敏感词汇命中次数阈值;3.对待审稿件进行主题分析,计算其主题概率分布,对待审稿件按最大概率主题进行分类,将待审稿件纳入该类别;4.以文字匹配的方式,对待审稿件进行敏感词汇统计分析,统计每个敏感词的命中次数,计算总命中次数;5.对待审稿件进行阈值判定,审核稿件是否通过;6.输出待审稿件的审核结果、概率最大前三主题及其概率、敏感词汇过滤分析结果。本发明作为新闻稿件的预审核工具,是媒体行业应用人工智能和大数据技术进行采编流程重构的有效方法。

技术领域

本发明属于人工智能和大数据应用领域,涉及一种新闻稿件主题分类及审核方法。

背景技术

在人工智能和大数据技术驱动下,为加快适应传统媒体和新兴媒体融合发展的需求,媒体行业急需开展前沿技术嵌入,积极运用人工智能和大数据技术进行媒体内容品质创新、采编流程重构。传统方式的新闻稿件审核完全依靠人工处理,采用人工智能和大数据技术对新闻稿件进行智能化审核,是媒体行业的发展趋势。

发明内容

有鉴于此,本发明的目的在于提供一种新闻稿件主题分类及审核方法。

为达到上述目的,本发明提供如下技术方案:

一种新闻稿件主题分类及审核方法,包括以下步骤:

S1:基于现有的已发布的稿件数据集构建LDA主题模型;

S2:设置可发布主题、可发布主题概率阈值、敏感词汇集、敏感词汇命中次数阈值;

S3:通过构建的LDA主题模型对待审稿件进行主题分析,计算其主题概率分布,对待审稿件按照最大概率主题进行分类,将待审稿件纳入该主题类别;

S4:以文字匹配的方式,对待审稿件进行敏感词汇统计分析,统计每个敏感词的命中次数,并计算总的命中次数;

S5:基于步骤S3和S4的分析结果,对待审稿件进行阈值判定,判断审核稿件是否通过;

S6:输出待审稿件的审核结果、概率最大的前三个主题及其概率、敏感词汇过滤分析统计结果。

步骤S1中构建的LDA主题模型可以不定期重新建立,不需要每次新闻稿件审核时都进行重建。LDA主题模型重新建立后,步骤S2中的可发布主题需要根据新建立的LDA主题模型输出的主题表述进行重新设置。

进一步,在步骤S2中,针对不同类型的新闻版块,设置不同的可发布主题,可发布主题的概率阈值根据具体情况动态调整,敏感词汇集及其命中总次数阈值根据具体情况动态调整。

进一步,在步骤S2中,对于同一个新闻版块,能够设置多个可发布主题,每个可发布主题分别设置相应的概率阈值。

进一步,在步骤S2中,可发布主题根据步骤S1所构建的LDA主题模型输出的主题表述进行设置。

进一步,步骤S1中所述的构建LDA主题模型,是基于已发布的新闻稿件数据集,保留其文字部分,去除图片和视频内容,自动构建LDA主题模型,获得每个主题下代表词汇及其概率分布。

进一步,步骤S3中所述对待审稿件进行主题分析,是基于已构建的LDA主题模型,对待审稿件进行主题分析,获得待审稿件的主题概率分布,统计概率最大的前三个主题并记录其对应概率值,作为输出信息的一部分。

进一步,在步骤S5中,综合主题分类分析和敏感词分析的结果,对待审稿件进行阈值判定审核,待审稿件同时满足如下三个条件的情况下,审核通过,否则审核不通过:

a)主题分类分析结果中,待审稿件的最大概率主题必须是预设置的可发布主题之一;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院,未经中国科学院重庆绿色智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811189190.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top