[发明专利]针对金融机构名称的模糊匹配模型建立方法、装置及系统在审
申请号: | 202211510701.0 | 申请日: | 2022-11-29 |
公开(公告)号: | CN115796150A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 朱俊祺;郑康豪;王立;何煜;邓俊峰;龙海;陈祖杰 | 申请(专利权)人: | 广发银行股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/194 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 姚心怡 |
地址: | 510080 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 金融 机构名称 模糊 匹配 模型 建立 方法 装置 系统 | ||
本发明公开了一种针对金融机构名称的模糊匹配模型建立方法、装置及系统,该方法包括:根据开源数据集和损失函数,使BERT模型进行有监督学习,得到跨领域的模糊匹配模型;根据金融机构名称数据集和所述损失函数,使所述跨领域的模糊匹配模型进行无监督学习,得到金融领域的模糊匹配模型。采用本发明实施例,可使训练得到的跨领域的模糊匹配模型具有判断准确的通用能力,以及使训练得到模型针对金融机构名称的相似度具有更高的计算准确率。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种针对金融机构名称的模糊匹配模型建立方法、装置及系统。
背景技术
目前,对金融机构名称之间的相似度计算可以通过匹配模型实现,匹配模型的建立主要依靠两种方式:基于本领域数据的有监督学习,以及基于非本领域数据的迁移学习。若进行有监督学习,需要提前构建金融机构名称对的数据集;数据集的建立一方面可以通过制定人工规则为每个名称打上表明相似或不相似的标签,另一方面则通过收集用户的搜索词以及通过用户的点击行为关联上的相似机构名称,点击的机构名称被视为与搜索词相似,而其余的名称被视为负样本。但无论是通过人工规则还是点击数据生成名称对数据,要么需要人工观察可能的输入、不断跟业务人员沟通以及不断查看生产数据,要么需要人工确认系统输入,都可能在大量的筛选过程中出现标签的标注错误,导致降低模型的计算准确率。若进行迁移学习,建立的模型具有较宽泛的判别能力,在应用于金融领域、比较金融机构名称对时,易产生误判,因此需要人工制定规则,而人工规则需要开发人员在大量了解模型的数据特性后才能指定,因此难以有效提升匹配模型的计算准确率。
发明内容
本发明提供了一种针对金融机构名称的模糊匹配模型建立方法、装置及系统,以解决现有的匹配模型在计算金融机构名称之间的相似度时,计算的准确率较低的技术问题。
为了解决上述技术问题,本发明实施例提供了一种针对金融机构名称的模糊匹配模型建立方法,包括:
根据开源数据集和损失函数,使BERT模型进行有监督学习,得到跨领域的模糊匹配模型;其中,所述开源数据集包括:第一语句、与所述第一语句对应的待匹配的第二语句、表明所述第一语句与所述第二语句之间相似或不相似的标签;
根据金融机构名称数据集和所述损失函数,使所述跨领域的模糊匹配模型进行无监督学习,得到金融领域的模糊匹配模型;其中,所述金融机构名称数据集为根据金融机构名称库和生成规则,生成设置有正样本和负样本的名称对数据集。
本发明根据设置有标签的开源数据集,对BERT模型进行有监督训练,开源数据集中具有第一语句、与第一语句对应的待测的第二语句以及准确设置好的标签,根据开源数据集和损失函数,使训练得到的跨领域的模糊匹配模型具有判断准确的通用能力。金融机构名称数据集含有第三语句以及与第三语句对应的正样本和负样本,以使跨领域的模糊匹配模型根据第三语句、正样本和负样本,结合损失函数进行无监督学习,使训练得到模型针对金融机构名称的相似度具有更高的计算准确率。
进一步地,所述根据开源数据集和损失函数,使BERT模型进行有监督学习,得到跨领域的模糊匹配模型,具体为:
输入所述第一语句和所述第二语句至所述BERT模型,分别对所述第一语句和所述第二语句进行向量编码处理后,得到与第一语句对应的第一语句向量和与第二语句对应的第二语句向量;其中,所述第二语句向量包括:标签表明相似的第二语句对应的相似语句向量,或者,标签表明不相似的第二语句对应的不相似语句向量;
根据所述第一语句向量、所述第二语句向量、所述标签和所述损失函数,计算损失,得到第一损失结果;
根据第一损失结果,进行梯度回传并更新权重,直至所述BERT模型收敛,得到所述跨领域的模糊匹配模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广发银行股份有限公司,未经广发银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211510701.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:模型管理方法、装置、存储介质以及电子设备
- 下一篇:一种镶嵌装置