[发明专利]一种基于双塔模型的自适应术语归一化方法在审
申请号: | 202310018843.3 | 申请日: | 2023-01-06 |
公开(公告)号: | CN116127956A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 袁静;赵俊博;陈刚;鲁鹏;周显锞 | 申请(专利权)人: | 浙江大学计算机创新技术研究院 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F16/35;G06F16/33;G06F16/335;G06F18/214;G06F18/241;G06F18/2415;G06N5/046;G06N3/0455;G06N3/047;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 311120 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 自适应 术语 归一化 方法 | ||
1.一种基于双塔模型的自适应术语归一化方法,其特征在于:方法包括:
1)针对术语原词,利用多种检索方式在标准术语典中查找召回多个和术语原词相似的标准术语;
2)将查找召回的所有标准术语分别与术语原词组成负样本对,一个标准术语与术语原词组成一对负样本对,将术语原词和正确的标准术语组成正样本对,从而获得所有样本对;
3)对构造好的所有样本对进行正负样本的均衡处理,获得均衡后的样本对集;
4)使用均衡后的样本对集输入到Sentence-BERT双塔模型中进行训练,Sentence-BERT双塔模型输出标签和预测结果,标签是样本对为相似或者不相似的分类,预测结果是术语原词对应的标准术语的个数;
5)使用训练好的Sentence-BERT双塔模型对标准术语典中的所有标准术语进行推理计算处理,将Sentence-BERT双塔模型处理中获得的所有标准术语对应的句子向量保存到离线向量数据库中;
6)针对用户输入的待预测术语原词,使用训练好的Sentence-BERT双塔模型对待预测术语原词进行推理计算处理,再结合离线向量数据库处理预测获得相似性高的标准术语输出;
7)利用步骤6)获得的相似性高的标准术语匹配附加到待预测术语原词实现归一化。
2.根据权利要求1所述的一种基于双塔模型的自适应术语归一化方法,其特征在于:使用多种检索方式分别计算术语原词与标准术语典中各个标准术语的相似度,每种检索方式查找召回与术语原词相似度排名前T个的非正确的标准术语,即不包含和术语原词正确的标准术语。
3.根据权利要求1所述的一种基于双塔模型的自适应术语归一化方法,其特征在于:所述的Sentence-BERT双塔模型包括原词分支、标准词分支、向量融合模块、相似度分类器和个数预测分类器;原词分支和标准词分支均包括依次进行的语义模块和池化模块,原词分支和标准词分支的语义模块分别接收术语原词和标准术语进行处理,原词分支的池化模块输出原词句子向量u到个数预测分类器中进行术语原词对应标准术语的个数的预测判断,原词分支和标准词分支的池化模块分别输出原词句子向量u和标准词句子向量v到向量融合模块中,向量融合模块输出结果到相似度分类器中进行相似的概率判断。
4.根据权利要求1所述的一种基于双塔模型的自适应术语归一化方法,其特征在于:所述步骤4)中,所述的损失函数设置为由样本对是否相似的二分类交叉熵损失与术语原词对应的标准术语个数预测的softmax损失进行加权融合的结果,表示为:
loss=γ·lossbinary+(1-γ)·lossmulticlass
其中,loss表示总损失,γ是样本对是否相似的二分类交叉熵损失权重,lossbinary为样本对是否相似的二分类交叉熵损失,y是二分类中两个样本对是否相似的真实值,是两个样本对是否相似的预测值;lossmulticlass表示术语原词对应的标准术语个数预测的softmax损失,yj表示one-hot后真实样本的标签值,j表示多个类别中的第j个类别,T表示总的类别个数,Sj是softmax损失输出向量S的第j个值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学计算机创新技术研究院,未经浙江大学计算机创新技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310018843.3/1.html,转载请声明来源钻瓜专利网。