[发明专利]一种文档分类模型训练的方法和相关装置在审
申请号: | 201910907014.4 | 申请日: | 2019-09-24 |
公开(公告)号: | CN112632269A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 任卓 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘晓菲 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 分类 模型 训练 方法 相关 装置 | ||
本申请公开了一种文档分类模型训练的方法和相关装置,该方法包括:基于文档中词语的上下文、词语的向量和文档的标识,利用无监督学习算法获得文档的特征向量;将标记分类标签的文档作为训练文档,基于多个训练文档的特征向量和分类标签,利用二分类算法训练获得文档分类模型;分类标签为目标类别标签或非目标类别标签。可见,将文档中词语的上下文和文档的标识作为输入,将词语的向量作为输出,基于无监督算法提取文档的特征向量,考虑词语的上下文语境以及同一文档中上下文语境之间的关联性,提高文档的特征向量的通用性;使得训练获得的文档分类模型对未标记分类标签的文档的实际分类效果较好,从而提高文档分类模型的分类准确率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文档分类模型训练的方法和相关装置。
背景技术
随着知识工程的快速发展以及油气行业数字化的推进,至今为止知识积累形成了海量的油气领域文档,充分、高效利用油气领域文档逐渐成为数字化油田建设的重点。
实现油气领域文档充分、高效利用,需要符合支持快速获取专业知识查询需求,满足知识检索、知识问答、信息抽提等应用需求,这些均依赖于油气领域文档的分类管理,即,需要在领域专家制定的专业标签体系下,为海量的油气领域文档标记合理的类别标签,例如,勘探、开发、钻井、测井、建设等众多类别标签。
目前,领域文档分类通常采用词袋模型、TF-IDF权值计算等经典方法提取领域文档的分类特征,该分类特征往往是注重领域文档中词语的词频而忽略了词语的顺序与语境,不具有通用性的特点,训练文档分类模型容易出现过拟合现象;使得训练获得的文档分类模型对未标记分类标签的领域文档的实际分类效果较差。也就是说,目前领域文档的分类特征提取方式导致训练获得文档分类模型的分类准确率较低。
发明内容
鉴于上述问题,本申请提供一种文档分类模型训练的方法和相关装置,使得训练获得的文档分类模型对未标记分类标签的文档的实际分类效果较好,从而提高文档分类模型的分类准确率。
第一方面,本申请实施例提供了一种文档分类模型训练的方法,该方法包括:
基于多个训练文档中词语的上下文、所述词语的向量和多个所述训练文档的标识,利用无监督学习算法学习获得多个所述训练文档的特征向量;
基于多个所述训练文档的特征向量和分类标签,利用二分类算法训练获得文档分类模型,所述分类标签为目标类别标签或非目标类别标签。
可选的,所述基于多个训练文档中词语的上下文、所述词语的向量和多个所述训练文档的标识,利用无监督学习算法学习获得多个所述训练文档的特征向量,包括:
基于每个所述训练文档中每个所述词语的上下文、每个所述词语的向量和对应所述训练文档的标识,利用无监督学习算法学习获得每个所述训练文档中每个所述词语的特征向量;
融合每个所述训练文档中各个所述词语的特征向量,获得每个所述训练文档的特征向量。
可选的,所述基于每个所述训练文档中每个所述词语的上下文、每个所述词语的向量和对应所述训练文档的标识,利用无监督学习算法学习获得每个所述训练文档中每个所述词语的特征向量,包括:
利用分词工具对每个所述训练文档进行分词获得每个所述训练文档中各个所述词语;
针对每个所述训练文档,以每个所述词语的上下文和所述训练文档的标识为输入,每个所述词语的向量为输出,利用无监督学习算法学习获得每个所述训练文档中每个所述词语的特征向量。
可选的,所述针对每个所述训练文档,以每个所述词语的上下文和所述训练文档的标识为输入,每个所述词语的向量为输出,利用无监督学习算法学习获得每个所述训练文档中每个所述词语的特征向量,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910907014.4/2.html,转载请声明来源钻瓜专利网。