[发明专利]文本分类模型的配置方法、装置、计算机设备及存储介质在审

申请号：	202111138390.5	申请日：	2021-09-27
公开（公告）号：	CN113849644A	公开（公告）日：	2021-12-28
发明（设计）人：	于凤英;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/216;G06F40/289;G06K9/62
代理公司：	深圳市明日今典知识产权代理事务所(普通合伙) 44343	代理人：	王杰辉
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类模型配置方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及模型配置领域，揭示了一种文本分类模型的配置方法、装置、计算机设备及存储介质，方法包括：获取待标注的文本库，从所述文本库中提取一段文本；识别所述文本包含的词信息，根据所述词信息建立所述文本对应的有向图；所述有向图的各节点为所述文本包含的各所述词信息；计算有向图中的各节点与预设定文档的相似度；从所述有向图中选取满足相似度要求的目标节点，将所述目标节点对应的词信息作为待选标签；计算各个所述待选标签的置信度，选取所述置信度满足预设值的待选标签作为核心标签；将所述文本及所述核心标签配置训练数据，并输入至所述文本分类模型以训练所述文本分类模型。本申请能够提高模型训练数据的标注效率及准确率。

技术领域

本申请涉及到模型配置领域，特别是涉及到一种文本分类模型的配置方法、装置、计算机设备及存储介质。

背景技术

随着人工智能的不断发展，希望通过人工智能能够准确识别文本的含义，自然语言文本蕴含着内容、语境、情感倾向等方面的复杂信息，需要对文本进行精细的分类才能进行模型的训练，而大部分的现有方法依赖大规模人工标注数据来训练文本分类器，其数据获取耗费了大量的人力物力，数据获取效率低，且导致模型训练的效率低。

发明内容

本申请的主要目的为提供一种文本分类模型的配置方法、装置、计算机设备及存储介质，旨在解决目前文本分类模型的数据获取效率低，模型训练效率低的问题。

为了实现上述发明目的，本申请提出一种文本分类模型的配置方法，包括：

获取待标注的文本库，所述文本库中包含若干段文本，从所述文本库中提取一段文本；

识别所述文本包含的词信息，根据所述词信息建立所述文本对应的有向图；所述有向图的各节点为所述文本包含的各所述词信息；

计算有向图中的各节点与预设定文档的相似度；

从所述有向图中选取满足相似度要求的目标节点，将所述目标节点对应的词信息作为待选标签；

计算各个所述待选标签的置信度，选取所述置信度满足预设值的待选标签作为核心标签；