[发明专利]一种产品图片文字识别方法和系统在审
申请号: | 202110327053.4 | 申请日: | 2021-03-26 |
公开(公告)号: | CN112836510A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 刘征;王鑫;邵明;于之希 | 申请(专利权)人: | 中国美术学院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 田金霞 |
地址: | 310000 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 产品图片 文字 识别 方法 系统 | ||
本发明公开了一种产品图片文字识别方法和系统,所述方法包括如下步骤:获取产品的原始图片据,采用CTPN算法检测原始图片文本区域;采用CRNN算法对所述原始图片的文本区域进行文字识别,获取文本数据;对所述文本数据进行分词,提取文本数据的关键词;计算关键词和原始图片的相关度,根据相关度选择原始图片对应的关键词。所述产品图片文字识别方法和系统采用CTPN算法与CRNN算法对图片中的文字进行识别,在获取具有文字的图片区域后,进一步对包含文字的图片区域进行文字识别,从而可以准确获取图片中的文字。
技术领域
本发明涉及文字识别领域,特别涉及一种产品图片文字识别方法和系统
背景技术
随着科技的快速发展,网络上的信息资源急剧膨胀。从最初的文字符号传播,演变为图片、视频、音乐等多模式的信息交流,信息的载体变得多样化、复杂化。对于设计师而言,在进行产品设计工作时,需要搜索大量的参考资料。但目前许多产品信息的存在形式较为分散,或直接用文本表示,或隐藏在图片和视频中。以文本表示的文字信息可被直接获取,但被以图像形式保存的文字信息则需要经过一定的处理才可以被使用。
对于一张产品图片而言,除了其本身包含颜色、形状、风格等基础信息外,时常蕴含大量的文字信息。设计师在参考其他产品时,除了获取直观的文本信息,也要获取融合在图片中的文字介绍。因此如何使用计算机从每张图片中自动精确提取融合在其中的文字信息成为亟待解决的问题。
发明内容
本发明其中一个发明目的在于提供一种产品图片文字识别方法和系统,所述方法和系统采用CTPN算法对图片中包含文字部分的区域进行检测,获取具有文字的图片区域,进一步对包含文字的图片区域进行文字识别,从而可以准确获取图片中的文字。
本发明其中一个发明目的在于提供一种产品图片文字识别方法和系统,所述方法和系统采用现有的分词库对识别的文字进行关键词提取,用于获取相关性高的关键词。
本发明其中一个发明目的在于提供一种产品图片文字识别方法和系统,所述方法和系统采用TF-IDF算法对识别的文字进行关键词提取,可以获取和图片的相关性高关键词文本。
本发明其中一个发明目的在于提供一种产品图片文字识别方法和系统,所述方法和系统采用CTC算法对文字序列进行对齐输出,将输出的文字序列输出到图像中对应的文字位置。
为了实现至少一个上述发明目的,本发明进一步提供一种产品图片文字识别方法,所述方法包括如下步骤:
获取产品的原始图片据,采用CTPN算法检测原始图片文本区域;
采用CRNN算法对所述原始图片的文本区域进行文字识别,获取文本数据;
对所述文本数据进行分词,提取文本数据的关键词;
计算关键词和原始图片的相关度,根据相关度选择原始图片对应的关键词。
根据本发明其中一个较佳实施例,检测图片文本区域方法包括:
设置图片长宽比固定值;
将原始图片的长宽比调整为长宽比固定值的整数倍的新图片;
对数据集中的真值框进行处理,将数据集中原始包围盒的标注划分成所述长宽比固定值的小包围盒;
将调整后的新图片输入到VGG16网络,获取VGG16网络中第五卷积block的第三卷积层的映射,获取大小为W×H×C特征,其中W为图片宽度,H为图片高度,C为图片通道数;
对所述第五卷积block的第三卷积层采用滑动窗口进行特征向量提取;
将提取的特征向量输入到BLSTM网络进行处理,获取原始图片的文本提议框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国美术学院,未经中国美术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110327053.4/2.html,转载请声明来源钻瓜专利网。