[发明专利]基于机器智能的题库生产方法及系统在审
申请号: | 201911042467.1 | 申请日: | 2019-10-30 |
公开(公告)号: | CN110781672A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 周云;须佶成;李川;刘岩;雷光化;任悦超 | 申请(专利权)人: | 北京爱学习博乐教育科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/253;G06F40/126;G06F40/103;G06K9/00;G06N3/04 |
代理公司: | 11303 北京方韬法业专利代理事务所(普通合伙) | 代理人: | 党小林 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 题库 层次结构 基于机器 试卷 图像文件转换 自动识别技术 还原技术 人工成本 智能 知识点 试题 自动化 生产 | ||
1.一种基于机器智能的题库生产方法,其特征在于,包括:
通过版本还原技术,将试卷的图像文件转换为word文件;
通过自动识别技术,由所述word文件中识别出所述试卷中试题的层次结构;
通过BERT模型,提取所述层次结构中蕴含的知识点。
2.根据权利要求1所述的基于机器智能的题库生产方法,其特征在于,通过版本还原技术,将试卷的图像文件转换为word文件,包括:
对所述图像文件进行预处理;
对预处理后的图像文件进行检测、识别;
对检测、识别得到的结果进行后处理。
3.根据权利要求2所述的基于机器智能的题库生产方法,其特征在于,所述预处理包括:双栏分割、旋转校正、大小调整。
4.根据权利要求2所述的基于机器智能的题库生产方法,其特征在于,对检测、识别得到的结果进行后处理,包括:
根据检测的坐标信息合并识别的文本、Latex公式及图表。
5.根据权利要求1所述的基于机器智能的题库生产方法,其特征在于,通过自动识别技术,由所述word文件中识别出所述试卷中试题的层次结构,包括:
将word文档转换为T语言文件;
将T语言文件输入至Antlr解析模块,获得语法树,所述语法树表示试卷中试题的层次结构;
通过遍历语法树,获得试题集的业务对象json数据结构。
6.根据权利要求1所述的基于机器智能的题库生产方法,其特征在于,所述BERT模型包括:双向Transformer的编码器。
7.根据权利要求6所述的基于机器智能的题库生产方法,其特征在于,所述双向Transformer的编码器包括:多头注意力机制层,以及前馈网络层。
8.根据权利要求1所述的基于机器智能的题库生产方法,其特征在于,所述多头注意力机制层执行如下操作:
从每个编码器的输入向量中生成查询向量、键向量、值向量;
通过查询向量分别与其他所有单词的键向量进行点积计算,得到其他单词对当前单词的打分;
对点积进行缩放处理;
采用softmax进行归一化处理;
通过多头注意力机制,计算注意力值。
9.根据权利要求8所述的基于机器智能的题库生产方法,其特征在于,通过多头注意力机制,计算注意力值,包括:
根据如下公式,计算注意力值:
MultiHead(Q,K,V)=Concat(head1,...,headh)W0
其中,headi=Attention(QWiQ,KWiK,VWiV),h表示head的数量,dq、dk、dv分别表示查询向量,键向量和值向量的维度。
10.一种基于机器智能的题库生产系统,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至9任意一项所述的基于机器智能的题库生产方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱学习博乐教育科技有限公司,未经北京爱学习博乐教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911042467.1/1.html,转载请声明来源钻瓜专利网。