[发明专利]基于智能眼镜的视障辅助中文文本阅读系统有效
申请号: | 201610812794.0 | 申请日: | 2016-09-09 |
公开(公告)号: | CN106406445B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 高学;饶钦程 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F1/16 | 分类号: | G06F1/16;G06F3/0484;G06K9/34 |
代理公司: | 44102 广州粤高专利商标代理有限公司 | 代理人: | 何淑珍 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供基于智能眼镜的视障辅助中文文本阅读系统,系统包括高清摄像头、扬声器、蓝牙、安卓手机、头戴式微型显示屏、条状电脑处理器、高性能大容量电池、太阳能电池等。安卓手机包括App控制模块、图像文字识别模块、语言传输模块、蓝牙传输模块等。本发明不仅可以实现对文档中字符的识别,还能对自然场景文本进行定位、识别。该系统具有定位与识别精度高、成本低廉、鲁棒性好、自动化程度高等特点,可广泛服务于视力欠佳者,为其提供在阅读及生活上的帮助。 | ||
搜索关键词: | 基于 智能 眼镜 辅助 中文 文本 阅读 系统 | ||
【主权项】:
1.基于智能眼镜的视障辅助中文文本阅读系统,其特征在于包括高清摄像头、扬声器、蓝牙、安卓手机、头戴式微型显示屏、条状电脑处理器、高性能大容量电池和太阳能电池;所述包括高性能大容量电池、太阳能电池、高清摄像头、扬声器、蓝牙、头戴式微型显示屏均位智能眼睛中并分别与条状电脑处理器连接,安卓手机通过自身的蓝牙功能与所述蓝牙连接,高性能大容量电池和太阳能电池为系统的各构成部分供电;所述高清摄像头用于实现自然场景图像的采集,并将图像传输到智能眼镜中保存;使用者只需带上眼镜,打开眼镜开关,触发高清摄像头,进行自然场景图像采集;/n所述蓝牙实现与手机的短距离通信,使用者打开手机蓝牙模块,与智能眼镜的蓝牙配对,通过手机端App发送操作命令给智能眼镜;所述扬声器实现将场景文本识别结果传输给使用者;所述安卓手机实现对智能眼镜的控制,通过发送指令操作智能眼镜;所述头戴式微型显示屏,实现对处理后信息的投放,便于使用者观看;所述条状电脑处理器,对图像信息进行处理并控制系统中各构成部分的工作;所述安卓手机包括App控制模块、图像文字识别模块、语言传输模块和蓝牙传输模块;通过手机上的蓝牙模块与智能眼镜进行通信,其中App控制模块上的功能包括开启、关闭智能眼镜和选择省电模式、工作模式;安卓手机的图像文字识别模块对自然场景图像中的文本进行处理;图像文字识别模块采用了端对端的文本识别方法进行自然场景文本的识别,其中端对端是针对场景文字识别中文本检测与字符识别的关系而言;图像文字识别模块首先基于滑动窗口对图像进行分割,利用卷积神经网络CNN模型进一步识别分割区域中是否包含文本信息,图像文字识别模块还对输入的原图像进行归一化和随机变形处理,用以增强定位效果,将处理后的图像输入卷积神经网络CNN模型,该卷积神经网络CNN模型结构为:第一层卷积层,采用5*5大小的卷积核;第一max_pooling层,采用2*2的核,第二层卷积层,采用3*3的卷积核;第二max_pooling层,采用2*2的核,随后的三、四、五卷积层,都采用3*3的卷积核;第五max_pooling层,采用2*2的核;第一层全连接:4096维,将- 第五 max_pooling 层 的输出连接成为一个一维向量,作为该层的输入;第二层全连接:4096维;最后Softmax层:输出为1000;若分割区域中包含文本信息,则判断其周围是否也含有文本信息,将文本信息合并起来,然后使用另一个训练好的CNN卷积模型识别定位的文本区域,该CNN模型与文本定位过程使用的CNN模型相似,最后将识别结果信息返回保存;/n所述语言传输模块将识别出来的文本用语音的方式传递给使用者,或当使用者开启导航模式时,实时推送给使用者;语言传输模块接入百度语音API,使用中文描述 使用者看到的文本;若使用者觉得语音模块意义不大,那也能在App上关闭语音功能或者在智能眼睛上关闭语音功能按钮;/n手机的蓝牙传输模块通过对系统的蓝牙进行数据传输,完成与手机的通信功能;使用者将通过安卓手机App控制模块或者操作智能眼镜来选择模式,模式有两种状态,一种是待机模式,就是会关闭所有的智能功能,在这种状态下,智能眼镜和普通镜一样;当选择在工作模式的状态下,使用者能自主选择关闭或者打开智能眼镜的任何一个功能;然后系统根据使用者的选择,调整智能眼镜的功能,智能眼镜对外部输入的信息进行处理,处理的信息包括图像信息、位置信息;信息处理完成后,把输出的结果呈现给使用者;图像处理模块接收到自然场景图像后,将利用滑动窗口分割图像、滑动窗口的大小为16*16,对整张图片从起点开始进行分割,利用训练好的文本定位模型对图像进行识别,判断是否含有文本信息,如果有,再对相邻区域进行判断,如果有,就对这两个图像信息进行合并,直至合并区域超过阈值;然后借助之前训练的识别模型对合并后的区域进行,最后将结果输出给使用者。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610812794.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种加固便携式计算机
- 下一篇:一种手环消息提醒方法