[发明专利]分类模型构建及文本语句分类方法、设备及存储介质在审
申请号: | 202110185296.9 | 申请日: | 2021-02-10 |
公开(公告)号: | CN112966102A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 王宝岩;杨悦 | 申请(专利权)人: | 万翼科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/216;G06F40/30 |
代理公司: | 深圳智汇远见知识产权代理有限公司 44481 | 代理人: | 艾青;牛悦涵 |
地址: | 519085 广东省珠海市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 模型 构建 文本 语句 方法 设备 存储 介质 | ||
本申请涉及一种分类模型构建及文本语句分类方法、设备及存储介质,涉及电子技术领域。该分类模型构建方法包括:获取样本数据;将样本数据输入至初始分类模型,通过初始分类模型分别提取正样本语句的特征和负样本语句的特征;根据正样本语句的特征和负样本语句的特征,获取损失,其中,损失中包括相似度损失,相似度损失根据正样本语句的特征和负样本语句的特征之间的相似度获得;根据损失,优化初始分类模型的参数后,返回执行将样本数据输入至初始分类模型的步骤,直至损失趋于稳定时,将初始分类模型作为最终的分类模型。本申请用以解决现有模型对文本语句分类不准确的问题。
技术领域
本申请涉及电子技术领域,尤其涉及一种分类模型构建及文本语句分类方法、设备及存储介质。
背景技术
随着现代化信息科技技术的发展,各行各业都在信息数字化的建设。当前,在各个公司和企业的合同管理系统存有很多的各种类型的文件,合同文档是每个公司的财务审核,法务审核等审核校验的重中之重。从合同文档中进行关键句提取时,我们常需要对语义相似但是标签不同的句子进行分类。
当前进行文本分类的方法主要还是传统的统计机器学习方法如SVM(SupportVector Machine,支持向量机),TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文本频率指数),或者是深度学习的LSTM(Long Short-Term Memory,长短期记忆网络),BERT(Bidirectional Encoder Representation from Transformers,双向编码模型)等。通常,余弦距离被用于度量文本的相似度。
但是,传统统计学习方法的分类决策错误率较大且对输入句子的表达格式很敏感。而且BERT有各向异性这个特征。各向异性是指向量相似度和语义相似度不一致的问题。当来自特定层的句子表示是各向异性时,统一采样的句子的余弦相似度接近1。实际上,各向异性的句向量可能导致两个不相似句子之间有巨大相似性。而此时,仅将余弦相似度直接用于句子的不同的表征是不精确的。
发明内容
本申请提供了一种分类模型构建及文本语句分类方法、设备及存储介质,用以解决现有模型对文本语句分类不准确的问题。
第一方面,本申请实施例提供了一种分类模型构建方法,包括:
获取样本数据,其中,所述样本数据包括正样本语句、所述正样本语句对应的标签、负样本语句和所述负样本语句对应的标签;
将所述样本数据输入至初始分类模型,通过所述初始分类模型分别提取所述正样本语句的特征和所述负样本语句的特征;
根据所述正样本语句的特征和所述负样本语句的特征,获取损失,其中,所述损失中包括相似度损失,所述相似度损失根据所述正样本语句的特征和所述负样本语句的特征之间的相似度获得;
根据所述损失,优化所述初始分类模型的参数后,返回执行所述将所述样本数据输入至初始分类模型的步骤,直至所述损失趋于稳定时,将所述初始分类模型作为最终的分类模型。
可选地,所述负样本语句和所述正样本语句是从同一个样本语句集合中获取的,所述正样本语句对应着至少一个所述负样本语句。
可选地,所述相似度损失的获得过程,包括:
获取所述正样本语句的特征和与所述正样本语句对应的每个所述负样本语句的特征之间的相似度;
分别对每个所述负样本语句,计算所述负样本语句对应的所述相似度加上预设值所得的中间量;
计算每个所述中间量的平均值,将所述平均值作为所述相似度损失。
可选地,所述特征包括语义特征和句法成分特征;
所述通过所述初始分类模型分别提取所述正样本语句的特征和所述负样本语句的特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万翼科技有限公司,未经万翼科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110185296.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示器及其制备方法
- 下一篇:地铁轨道交通用橡胶垫板及其组合物、制备方法