[发明专利]基于图文智能识别的电子教育资源匹配方法及计算机可读存储介质在审
申请号: | 201910934728.4 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110807121A | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 李康;单江涛;袁野;郑志强 | 申请(专利权)人: | 广东墨痕教育科技有限公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06K9/34;G06K9/40;G06K9/62;G06Q50/20 |
代理公司: | 东莞市华南专利商标事务所有限公司 44215 | 代理人: | 邱岳阳 |
地址: | 523000 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图文 智能 识别 电子 教育 资源 匹配 方法 计算机 可读 存储 介质 | ||
1.基于图文智能识别的电子教育资源匹配方法,其特征是:
电子教学资源数据库构建步骤,获取出版教材电子资源和网络教学电子资源;
关键词提取步骤,提取出版教材电子资源和出版教材电子资源的关键词,所述关键词包括图像和主题关键词;
匹配步骤,根据出版教材电子资源的图像和主题关键词在电子教学资源数据库中进行检索,把检索到的网络教学电子资源与出版教材电子资源进行关联性匹配,标记与两者关联的关键词信息;
检索步骤,获取待检索图像信息,识别该图像信息中的图像和/或主题关键词,提取电子教学资源数据库中相匹配的网络教学电子资源。
2.根据权利要求1所述的基于图文智能识别的电子教育资源匹配方法,其特征是,关键词提取步骤中,通过图像匹配模型算法和主题模型算法分别提取图像和主题关键词。
3.根据权利要求2所述的基于图文智能识别的电子教育资源匹配方法,其特征是,所述提取图像,包括如下步骤:
(1)预处理步骤,对图像数据进行去噪处理;
(2)特征提取步骤,采用特征检索方法提取所述经过去噪处理的图像数据中的图像特征,并存储为图像数据库;
(3)特征向量构建步骤:抽取同一图像关键词的全部所述图像特征来构建特征向量;
(4)筛选步骤:根据所述特征向量,用图像匹配模型算法在图像数据库中匹配图像特征,根据相似性度量准则进行排序、搜索;
(5)返回图像特征相似性较高的结果。
4.根据权利要求2所述的基于图文智能识别的电子教育资源匹配方法,其特征是,所述主题模型算法具体是LDA生成模型,所述提取主题关键词,进一步包括:通过光学字符识别OCR进行文本识别,基于LDA生成模型从识别到的文本中获取关键词。
5.根据权利要求4所述的基于图文智能识别的电子教育资源匹配方法,其特征是,所述通过光学字符识别OCR进行文本识别,进一步包括:根据文本所在章节、知识点短语增加文本权重。
6.根据权利要求2所述的基于图文智能识别的电子教育资源匹配方法,其特征是,所述通过光学字符识别OCR进行文本识别,进一步包括:通过物理分割方法和逻辑分割方法提取公式文本,所述物理分割方法是指按层次顺序提取文档;所述逻辑分割方法是指:根据文本排列方式探测大公式,根据标志性字符探测小公式。
7.根据权利要求6所述的基于图文智能识别的电子教育资源匹配方法,其特征是,所述根据文本排列方式探测大公式是指:若该文本位于每页或每行的中间位置,且连续的文本字符数不超过预设值,则判断该文本为大公式。
8.根据权利要求6所述的基于图文智能识别的电子教育资源匹配方法,其特征是,根据标志性字符探测小公式是指:若检索到公式符号,则以该公式符号为起点向两侧文本探寻不超过预设字符数,若识别到完整的公式则判断该文本为小公式。
9.根据权利要求1所述的基于图文智能识别的电子教育资源匹配方法,其特征是,所述检索步骤中,所述图像信息通过拍照或者屏幕截图得到。
10.计算机可读存储介质,其存储有计算机程序,其特征是,所述计算机程序被控制器执行时能够实现权利要求1~9中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东墨痕教育科技有限公司,未经广东墨痕教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910934728.4/1.html,转载请声明来源钻瓜专利网。