[发明专利]文本识别方法、装置、电子设备、存储介质及转账方法在审
申请号: | 202110867483.5 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113569568A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 徐志;毛群;戴辛晨;王宇;梁晨翊;罗杰文 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/194;G06F40/216 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 张琛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 电子设备 存储 介质 转账 | ||
本公开提供了一种文本识别方法、装置、电子设备、可读存储介质及转账方法,可以应用于人工智能技术领域、金融领域或其他领域。该文本识别方法,包括:获取非标准文本内容,对非标准文本内容进行第一预处理,生成非标准语料库,非标准文本内容属于标准类别库的一种;对标准类别库中的标准文本内容进行第二预处理,生成标准语料库;比对标准语料库的标准词汇和非标准语料库中的非标准词汇,基于比对结果对非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,第三预处理包括添加和/或删除非标准语料库中的非标准词汇;对标准语料库的标准词汇和准标准语料库中的准标准词汇进行后置处理以生成排名,根据排名输出文本识别结果。
技术领域
本公开涉及人工智能技术领域,更具体地涉及一种文本识别方法、装置、电子设备、可读存储介质及银行转账方法。
背景技术
在银行进行汇款等业务办理时,需要收集用户填写的各种银行名称、银行账号等收款信息。在实际的业务处理过程中,由于用户填写或输入的收款银行名称经常是非标准的银行名称,不能直接查找到对应的银行账号,需要依靠人工对银行名称进行复核确认,并查找对应的银行账号。在进行该类人工识别或处理过程中,主要存在以下问题:跨行汇款业务量大,时效性要求高,依靠人工查找标准行名容易造成业务处理不及时,办理效率低的问题。此外,人工补录标准不一,依赖于业务人员的经验,有时可能会出现录错的风险,造成汇款业务失败。
发明内容
鉴于上述问题,本公开提供了可以文本识别方法、装置、电子设备及可读存储介质,能够有效解决人工识别效率低,易出错的问题。
根据本公开的第一个方面,提供了一种文本识别方法,包括:获取非标准文本内容,对所述非标准文本内容进行第一预处理,生成非标准语料库,所述非标准文本内容属于标准类别库的一种;对所述标准类别库中的标准文本内容进行第二预处理,生成标准语料库;比对所述标准语料库的标准词汇和所述非标准语料库中的非标准词汇,基于比对结果对所述非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,所述第三预处理包括添加和/或删除所述非标准语料库中的非标准词汇;对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行后置处理以生成相似度排名,根据所述相似度排名输出文本识别结果。
根据本公开的实施例,所述获取非标准文本内容,对所述非标准文本内容进行第一预处理,生成非标准语料库包括:获取非标准文本内容,对所述非标准文本内容进行分词处理,生成所述非标准词汇,所述非标准词汇包含关键词;根据所述非标准词汇中的关键词确定所述非标准文本内容所在的所述标准类别库;对所述非标准词汇进行过滤处理,生成所述非标准语料库。
根据本公开的实施例,所述对所述标准类别库中的标准文本内容进行第二预处理,生成标准语料库包括:获取所述标准类别库中的所有标准文本内容;对每一条所述标准文本内容进行分词处理,生成所述标准词汇;对所述标准词汇进行过滤处理,生成所述标准语料库。
根据本公开的实施例,基于比对结果对所述非标准语料库中的非标准词汇进行第三预处理包括:若所述非标准词汇存在于所述非标准语料库中,且不存在所述标准语料库中,则删除所述非标准语料库中的所述非标准词汇。
根据本公开的实施例,所述基于比对结果对所述非标准语料库中的词汇进行第三预处理还包括:获取所述非标准语料库中的每一个所述非标准词汇,根据获取的所述非标准词汇,提取所述标准语料库中包含所述非标准词汇的所述标准词汇;根据提取的所述标准词汇生成交集词汇;若所述交集词汇不在所述非标准语料库中,则将生成的所述交集词汇添加至所述非标准语料库,以生成准标准语料库,所述准标准语料库包含准标准词汇。
根据本公开的实施例,所述对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行后置处理以生成排名,根据所述排名输出文本识别结果包括:对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行向量化处理;根据所述向量化处理结果,计算所述标准词汇向量和所述准标准词汇向量的余弦相似度;基于余弦相似度生成相似度排名,选择排名大于设定阈值的所述标准词汇所对应的标准文本作为目标文本输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110867483.5/2.html,转载请声明来源钻瓜专利网。