[发明专利]基于层级结构多标签体系的新闻文本分类模型的构建方法有效
申请号: | 202010321538.8 | 申请日: | 2020-04-22 |
公开(公告)号: | CN111221974B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 杨瀚;王炜;严照宇 | 申请(专利权)人: | 成都索贝数码科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 钱成岑 |
地址: | 610041 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层级 结构 标签 体系 新闻 文本 分类 模型 构建 方法 | ||
本发明公开了一种基于层级结构多标签体系的新闻文本分类模型的构建方法,所述构建方法包括如下步骤:步骤一:新闻文本类别标注数据化;步骤二:确定不同层级的人工标注的类别的置信度;步骤三:计算步骤一的新闻文本中所有词语的权重;步骤四:基于步骤一标注的文本类别、步骤二确定的置信度、步骤三计算的词语权重,使用多层相关吉布斯采样方法训练模型,得到类别‑词语分布矩阵。本发明的构建的模型中,自适应确定各个词语的权重,增加了不同层级类别的置信度,降低了人工标注不准确造成的不利影响,解决了有层级结构的新闻文本分类问题,从而提升了新闻文本分类预测的准确性。
技术领域
本发明涉及属于新闻文本自动分类领域,尤其是一种基于层级结构多标签体系的新闻文本分类模型的构建方法。
背景技术
近年来,随着网络技术的发展和融媒体的兴起,新闻资讯数量急剧增加,互联网作为一种重要的新闻资讯传播渠道,具有信息全面、传播迅速、受众广泛等特点。每一条新闻文本都有所属的类别,精确且快速地对新闻文本进行分类有助于新闻的传播和收录。在传统的新闻编目中,需要依赖人工阅读新闻内容并给出相应的分类,对于数量庞大的新闻资讯而言这是一项异常困难的工作。另一方面,标准的新闻分类体系有4个层级且一则新闻可能同时属于多个分类,人工阅读分类的方法存在众多主观因素,容易造成分类错误和分类缺失的问题。因此,找到一种精确、快速的新闻文本分类方法,具有重要的意义。
带标签的隐含狄利克雷分配模型作为一种有监督的主题模型,常被用于文本语义主题挖掘和文本分类。该算法首先需要将训练数据进行类别标记,然后采用吉布斯采样(Gibbs Sampling)对模型进行迭代训练,在一定的迭代次数后得到收敛的带标签的隐含狄利克雷分配模型。最后,利用收敛的模型对新闻文本类别的概率作出预测,根据预测的结果确定新闻文本的分类结果。
然而,在实际工程应用中,带标签的隐含狄利克雷分配模型的效果受到一定的制约,主要原因有以下三点:
(1)标准的带标签的隐含狄利克雷分配模型假设所有的类别均属于同一层级;然而真实的新闻分类体系是多层级的,不同层级的标签有明显的隶属关系,比如球类运动和冰上运动属于体育类别。因此,把所有标签当作同一层级是不合理的。
(2)标准的带标签的隐含狄利克雷分配模型假设所有的人工标注样本都是正确且完整的;然而人工标注存在很强的主观因素且新闻文本的分类体系相当复杂,容易产生误分、漏分的情况。因此,完全按照人工标注进行训练会降低模型预测的准确性。
(3)标准的带标签的隐含狄利克雷分配模型假设所有词语的重要程度是一致的;然而在真实的新闻文本中不同词语对文本分类的重要程度并不是完全相同的,比如在一篇体育类别的新闻文本中同时出现“篮球”和“场馆”两个词语,显然“篮球”会更容易引导将文本类别划分为体育。因此,将所有的词语按照相同的重要程度处理是不恰当的。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于层级结构多标签体系的新闻文本分类模型的构建方法。
本发明提供的一种基于层级结构多标签体系的新闻文本分类模型的构建方法,包括如下步骤:
步骤一:新闻文本类别标注数据化;
步骤二:确定不同层级的人工标注的类别的置信度;
步骤三:计算步骤一的新闻文本中所有词语的权重;
步骤四:基于步骤一标注的文本类别、步骤二确定的置信度、步骤三计算的词语权重,使用多层相关吉布斯采样方法训练模型,得到类别-词语分布矩阵。
进一步地,步骤一包括如下子步骤:
步骤101:确定新闻文本的分类体系,所述分类体系采用多层级类别表示,包括每一层级的详细类别和不同层级的类别之间的隶属关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司,未经成都索贝数码科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010321538.8/2.html,转载请声明来源钻瓜专利网。