[发明专利]一种基于深度域适应的跨域测试文档分类方法有效
申请号: | 202110641886.8 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113360633B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 王崇骏;杜云涛;张怡;杨海洋;资帅 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F40/242;G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 孙建朋 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 适应 测试 文档 分类 方法 | ||
1.一种基于深度域适应的跨域测试文档分类方法,其特征在于,包括以下步骤:
步骤1、数据采集,采集辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;
步骤2、数据预处理,包括以下步骤:
步骤2.1、对辅助领域和目标领域的全部文档都进行分词处理,从而将整个文档划分成许多个词的组合;
步骤2.2、对划分出的词语进行去重处理;
步骤2.3、对去重后的词语进行停用词过滤,得到最终的字典;
步骤2.4、根据字典,将辅助领域和目标领域中的每个文档都表示成one-hot向量,获得该文档的初始特征表示;
步骤3、域适应阶段,将辅助领域和目标领域的数据都送入神经网络模型中,对文档进行特征提取,在获得文档的特征表示后,对这两部分数据进行损失函数的计算,其损失函数包括两部分,第一部分是辅助数据上有标注数据的分类损失,其作用是将辅助领域的样本分类正确,第二部分是两个领域之间的分布差异损失,其作用是缩小两个领域之间的分布差异来提取领域不变的特征。
2.根据权利要求1所述的基于深度域适应的跨域测试文档分类方法,其特征在于,所述步骤3中神经网络模型是预训练语言模型,预训练语言模型通过在预训练中学习到的通用语言知识进一步地提升在下游任务的效果。
3.根据权利要求2所述的基于深度域适应的跨域测试文档分类方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1、将辅助领域和目标领域通过one-hot向量表示的文本数据同时输入模型中,获取文本数据的特征表示;
步骤3.2、将辅助领域的样本经过分类器层,获得模型关于辅助领域样本的概率预测分布,并和真实的样本标签计算分类损失;
步骤3.3、将辅助领域的样本计算出来的特征和目标领域的样本计算出来的特征一起用来计算分布差异损失;
步骤3.4、将样本分类损失和分布差异损失通过一个权衡系数进行加和,将总的损失进行回传,并通过梯度下降法更新模型参数;
步骤3.5、迭代步骤3.1至步骤3.4,直到模型收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110641886.8/1.html,转载请声明来源钻瓜专利网。