[发明专利]一种用于小样本意图识别的文本数据优化方法在审
申请号: | 202210198697.2 | 申请日: | 2022-03-02 |
公开(公告)号: | CN114564569A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 张建兵;刘书豪;黄书剑;戴新宇;陈家骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/338;G06N3/04;G06N3/08 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 样本 意图 识别 文本 数据 优化 方法 | ||
1.一种用于小样本意图识别的文本数据优化方法,其特征在于,包括以下步骤:
步骤1,构建训练文本数据集;
步骤2,对训练任务按照具有的意图数阶梯式地划分级别;
步骤3,采样一个批次的小样本意图识别训练样本;
步骤4,在基于度量学习的元学习模型上使用采样出的同一批次的两个以上的任务做并行训练;
步骤5,判断训练是否终止;
步骤6,结束模型训练。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:定义训练文本数据集为S={T1,T2,...,Tn},其中Ti为真实对话场景中的第i个小样本意图识别任务,n为S中总的训练任务数,i取值为1~n;
每一个小样本意图识别任务被定义为其中Intentij为Ti对应对话场景下的一个意图,Ci为Ti所含有的意图个数;
对于每个任务下的一个意图被定义为其中queryijk为被标注为Intentij的一条对话文本,Nij为意图Intentij所含的标注文本总数。
3.根据权利要求2所述的方法,其特征在于,步骤2包括:构建级别列表levels={L1,L2,...,LM},LM表示第M个级别;
一个训练任务所具有的意图数达到的最大的一个级别对应数值就是训练任务的级别,即如果Ti所含意图数Ci≥Ll且Ci<Ll+1,则Ti对应级别就是Ll,如果Ci≥LM则Ti对应级别就是LM;
根据每个任务Ti所含有的意图个数将训练文本数据集S中的所有任务划分到不同的子集中,即构建训练文本数据集S的划分其中表示对应于级别LM的子集。
4.根据权利要求3所述的方法,其特征在于,步骤3包括:
步骤3-1,确定当前批次要采样的级别Ll;
步骤3-2,在级别Ll的任务集合中采样出一个任务Ti;
步骤3-3,在任务Ti中采样出Ll个意图;
步骤3-4,对于Ll个意图,每个意图采样出k条对话文本;
步骤3-5,判断是否完成本批次采样:如果已经采样出了级别对应批次大小个训练任务样本,则执行步骤3-6,否则返回步骤3-2继续采样;
步骤3-6,返回当前批次采样出的训练数据:当前批次的训练数据D包含有个任务,每个任务包含有Ll个意图,每个意图都含有k条被标注为所述意图的对话文本;
将训练数据D拆分为支撑集Dsupport和查询集Dquery,拆分方法为将训练数据D下每个意图的k条对话文本对应拆分为分别有ksupport和kquery条对话文本的两个子集,其中满足k=ksupport+kquery。
5.根据权利要求4所述的方法,其特征在于,步骤4中,所述基于度量学习的元学习模型包括编码器和相似度度量函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210198697.2/1.html,转载请声明来源钻瓜专利网。