[发明专利]基于互联网检索的中文文档识别方法有效

申请号：	201811395481.5	申请日：	2018-11-22
公开（公告）号：	CN109684928B	公开（公告）日：	2023-04-11
发明（设计）人：	王秋锋;黄开竹	申请（专利权）人：	西交利物浦大学
主分类号：	G06V30/41	分类号：	G06V30/41;G06V30/148;G06V10/82;G06N3/04;G06N3/088
代理公司：	苏州创元专利商标事务所有限公司 32103	代理人：	范晴;丁浩秋
地址：	215123 江苏省苏州市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于互联网检索的中文文档识别方法，包括：对文档图片通过构建的候选切分网络，得到基元片段；将相邻的N个基元片段组合构成候选字符模式，将所有的候选字符模式构成候选切分网格；通过字符识别器识别候选切分网格中的候选字符模式，得到识别概率最高的M个字符类别，生成候选识别网格；对候选识别网格中的候选切分‑识别路径进行评价，得到评分最高的路径；若识别次数小于设定阈值，进行互联网检索，在互联网语料库中查找与当前文档相关的文档；从相关文档中得到词语的语言上下文概率模型，在识别过程中根据语言上下文概率模型动态更新语言模型，得到文档识别结果。充分考虑语言上下文信息，提高语言模型的得分准确性，从而提高文档识别准确率。
搜索关键词：	基于互联网检索中文文档识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于互联网检索的中文文档识别方法，其特征在于，包括以下步骤：S01：对输入的文档图片通过构建的候选切分网络，得到连续的基元片段；S02：将相邻的N个基元片段组合构成一个候选字符模式，将所有的候选字符模式构成一个候选切分网格；S03：通过字符识别模型识别候选切分网格中的候选字符模式，得到识别概率最高的M个字符类别，生成候选识别网格；S04：根据字符识别模型和语言模型对候选识别网格中的候选切分‑识别路径进行评价，得到评分最高的路径；S05：判断识别次数，若识别次数小于设定阈值，进行互联网检索，利用当前识别结果作为网络检索的查询文本，在互联网语料库中查找与当前文档相关的文档；S06：从相关文档中得到词语的语言上下文概率模型，根据语言上下文概率模型动态更新语言模型，当判断不需要进行检索时输出文本结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西交利物浦大学，未经西交利物浦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811395481.5/，转载请声明来源钻瓜专利网。

上一篇：活体检测方法、装置、计算机可读存储介质和电子设备
下一篇：基于多源遥感数据融合的陆生植物生态环境监测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于互联网检索的中文文档识别方法有效

专利文献下载