[发明专利]基于单字匹配的文档图像中文关键词检测方法、系统有效
申请号: | 201910222318.7 | 申请日: | 2019-03-22 |
公开(公告)号: | CN110059572B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 王春恒;贾馥溪;赵晋媛;肖柏华 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/46 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于文本图像识别技术领域,具体涉及一种基于单字匹配的文档图像中文关键词检测方法、系统,旨在解决解决文档图像图像质量不稳定及汉字排列多样性带来的中文关键词识别的准确度和鲁棒性不足的问题,本发明方法包括:对文档图像进行二值化处理得到第一图像;进行字符检测得到第一候选字符集合;对第一候选字符集合进行过滤得到第二候选字符集合、第一噪声候选字符集合;从第一噪声候选字符集合筛选字符并添加至第二候选字符集合,得到第三候选字符集合;进行候选字符组合得到第一候选词集合;进行丢失字符的二次检测得到第二候选词集合;基于代价函数,选择最终的关键词检测结果。本发明提高了文档关键词识别的准确度,具有高鲁棒性。 | ||
搜索关键词: | 基于 单字 匹配 文档 图像 中文 关键词 检测 方法 系统 | ||
【主权项】:
1.一种基于单字匹配的文档图像中文关键词检测方法,其特征在于,该方法包括以下步骤:步骤S10,获取文档图像,并进行二值化处理得到第一图像;步骤S20,采用基于连通分量特征的文本检测方法进行字符检测,得到第一候选字符集合;步骤S30,基于词典信息,采用大类别汉字识别器对第一候选字符集合进行过滤,得到第二候选字符集合、第一噪声候选字符集合;步骤S40,基于所述第二候选字符集合计算字符尺寸,基于该字符尺寸从所述第一噪声候选字符集合使用滑动窗提取的字符添加至所述第二候选字符集合,得到第三候选字符集合;步骤S50,根据词典信息和设定的几何约束条件,将第三候选字符集合中的候选字符进行组合,得到第一候选词集合;步骤S60,对所述第一候选词集合中每一个候选词,基于其字符顺序及位置关系进行丢失字符的二次检测,并将检测结果补入对应的候选词,得到第二候选词集合;步骤S70,基于包含识别置信度、集合分布信息的代价函数,从所述第二候选词集合中选择得到最终的关键词检测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910222318.7/,转载请声明来源钻瓜专利网。