[发明专利]基于互联网检索的中文文档识别方法有效
申请号: | 201811395481.5 | 申请日: | 2018-11-22 |
公开(公告)号: | CN109684928B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 王秋锋;黄开竹 | 申请(专利权)人: | 西交利物浦大学 |
主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/148;G06V10/82;G06N3/04;G06N3/088 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 范晴;丁浩秋 |
地址: | 215123 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 互联网 检索 中文 文档 识别 方法 | ||
1.一种基于互联网检索的中文文档识别方法,其特征在于,包括以下步骤:
S01:对输入的文档图片通过构建的候选切分网络,得到连续的基元片段;
S02:将相邻的N个基元片段组合构成一个候选字符模式,将所有的候选字符模式构成一个候选切分网格;
S03:通过字符识别模型识别候选切分网格中的候选字符模式,得到识别概率最高的M个字符类别,生成候选识别网格;
S04:根据字符识别模型和语言模型对候选识别网格中的候选切分-识别路径进行评价,得到评分最高的路径;
S05:判断识别次数,若识别次数小于设定阈值,进行互联网检索,利用当前识别结果作为网络检索的查询文本,在互联网语料库中查找与当前文档相关的文档;
S06:从相关文档中得到词语的语言上下文概率模型,根据语言上下文概率模型动态更新语言模型,当判断不需要进行检索时输出评分最高的路径对应的文本结果。
2.根据权利要求1所述的基于互联网检索的中文文档识别方法,其特征在于,所述步骤S01中对输入的文档图片预先通过文本行提取算法得到文本行字符串图像。
3.根据权利要求1所述的基于互联网检索的中文文档识别方法,其特征在于,所述步骤S04中根据字符识别模型、语言模型和四个几何模型构建路径评价准则,所述路径评价准则为:
其中,Xs为第s条切分路径,C为识别结果字符串,字P(ci|xi)为字符识别模型,P(ci|c1i-1)为语言模型,为四个几何模型,λj为权重,j=1,2,..,5,用来平衡各模型的输出,ωi表示字符图像的宽度。
4.根据权利要求1所述的基于互联网检索的中文文档识别方法,其特征在于,所述互联网检索为利用搜索引擎进行检索。
5.根据权利要求1所述的基于互联网检索的中文文档识别方法,其特征在于,所述互联网检索包括以下步骤:
分别对查询文本和语料库文档进行特征提取,采用相同的特征表示;
查询文本用向量Q={q1q2…qv},其中V为事先准备的词汇表中词语的数目,qi为第i个词的归一化比重,i=1、2…v,对语料库中的所有文档Dk用同样的方式进行向量表示;
采用cosine相似度来衡量查询文本与该文档的相关性,公式为:得到相关性较高的前K个相关文档。
6.根据权利要求1所述的基于互联网检索的中文文档识别方法,其特征在于,所述步骤S06中,通过统计词语的N-Gram数值,得到一个相关N-Gram语言模型,采用该N-Gram语言 模型和传统的语言模型进行加权组合,如下公式表示:
其中,和分别表示传统语言模型和检索得到的语言上下文概率模型,w1和w2为权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西交利物浦大学,未经西交利物浦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811395481.5/1.html,转载请声明来源钻瓜专利网。