[发明专利]一种基于多模态交叉比较的题目检索方法和系统在审
申请号: | 202110622823.8 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113392196A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 余胜泉;陈鹏鹤;刘杰飞;徐琪;陈玲;卢宇 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/953;G06K9/62 |
代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 刘浩;许天易 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 交叉 比较 题目 检索 方法 系统 | ||
1.一种基于多模态交叉比较的题目检索系统,其特征在于,所述系统包括:题目数据解析模块、题目相似度计算模块和结果输出模块;其中,
题目数据解析模块,用于接收用户输入的题目信息,并进行预处理;
题目相似度计算模块,用于计算用户输入的题目与题库中的题目的相似度;
结果输出模块,用于将所述相似度大于预先设置的科目阈值的所述题库中的题目返回用户;
在所述题目相似度计算模块中,包括:
a.将题目标题清理后文本和题目内容清理后文本拼接后作为文本表示,将题目图片文本识别内容和题目图片作为图片表示;
b.将用户输入题目的文本表示与图片表示用T1、P1表示,题库中题目的文本表示与图片表示用T2、P2表示,计算T1与T2、T1与P2、P1与T2、P1与P2的相似度,分别用S1、S2、S3、S4表示;
c.计算综合相似度s;
所述相似度S1采用Jaccard方法进行计算;通过余弦相似度计算相似度S2、S3和S4;题目图片文本识别通过BERT模型转换为向量表示,题目图片通过LeNet卷积网络模型转换为向量,然后将这两个向量拼接作为图片表示的向量化表示;
综合相似度s的计算公式为:
W为科目权重。
2.根据权利要求1所述的题目检索系统,其特征在于,科目权重为:
。
3.根据权利要求1所述的题目检索系统,其特征在于,在结果输出模块中,若综合相似度大于用户输入的题目所对应的科目阈值,则将题库中问题作为候选问题。
4.根据权利要求3所述的题目检索系统,其特征在于,所述科目阈值为:
。
5.一种基于多模态交叉比较的题目检索方法,包括:
步骤1、接收用户输入的题目信息;
步骤2、计算接收的题目与题库中题目的相似度;
步骤3、对于相似度大于科目阈值的题库中题目作为候选问题返回给用户;
所述步骤2包括:
a.获取题目信息的文本表示和图片表示;
b.将题目的文本表示与图片表示用T1、P1表示,将题库中题目的文本表示与图片表示用T2、P2表示,然后交叉比较四部分内容的相似度S1、S2、S3、S4;其中,S1采用Jaccard方法计算;计算S2、S3、S4时采用余弦相似度计算方法;
c.计算综合相似度s;
综合相似度s的计算公式为:
W为科目权重,其中,题目图片文本识别通过BERT模型转换为向量表示,题目图片通过LeNet卷积网络模型转换为向量,然后将这两个向量拼接作为图片表示的向量化表示。
6.根据权利要求5所述的题目检索方法,其特征在于,在所述步骤3中,将综合相似度大于用户输入题目所对应的科目阈值的题库中的题目作为候选问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110622823.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于元学习的育人案例自动标注系统及方法
- 下一篇:一种供盖设备