[发明专利]文本识别方法、装置、电子设备、存储介质及转账方法在审
申请号: | 202110867483.5 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113569568A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 徐志;毛群;戴辛晨;王宇;梁晨翊;罗杰文 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/194;G06F40/216 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 张琛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 电子设备 存储 介质 转账 | ||
1.一种文本识别方法,包括:
获取非标准文本内容,对所述非标准文本内容进行第一预处理,生成非标准语料库,所述非标准文本内容属于标准类别库的一种;
对所述标准类别库中的标准文本内容进行第二预处理,生成标准语料库;
比对所述标准语料库的标准词汇和所述非标准语料库中的非标准词汇,基于比对结果对所述非标准语料库中的非标准词汇进行第三预处理,生成准标准语料库,所述第三预处理包括添加和/或删除所述非标准语料库中的非标准词汇;
对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行后置处理以生成相似度排名,根据所述相似度排名输出文本识别结果。
2.根据权利要求1所述的文本识别方法,其中,所述获取非标准文本内容,对所述非标准文本内容进行第一预处理,生成非标准语料库包括:
获取非标准文本内容,对所述非标准文本内容进行分词处理,生成所述非标准词汇,所述非标准词汇包含关键词;
根据所述非标准词汇中的关键词确定所述非标准文本内容所在的所述标准类别库;
对所述非标准词汇进行过滤处理,生成所述非标准语料库。
3.根据权利要求2所述的文本识别方法,其中,所述对所述标准类别库中的标准文本内容进行第二预处理,生成标准语料库包括:
获取所述标准类别库中的所有标准文本内容;
对每一条所述标准文本内容进行分词处理,生成所述标准词汇;
对所述标准词汇进行过滤处理,生成所述标准语料库。
4.根据权利要求3所述的文本识别方法,其中,基于比对结果对所述非标准语料库中的非标准词汇进行第三预处理包括:
若所述非标准词汇存在于所述非标准语料库中,且不存在所述标准语料库中,则删除所述非标准语料库中的所述非标准词汇。
5.根据权利要求4所述的文本识别方法,其中,所述基于比对结果对所述非标准语料库中的词汇进行第三预处理还包括:
获取所述非标准语料库中的每一个所述非标准词汇,根据获取的所述非标准词汇,提取所述标准语料库中包含所述非标准词汇的所述标准词汇;
根据提取的所述标准词汇生成交集词汇;
若所述交集词汇不在所述非标准语料库中,则将生成的所述交集词汇添加至所述非标准语料库,以生成准标准语料库,所述准标准语料库包含准标准词汇。
6.根据权利要求5所述的文本识别方法,其中,所述对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行后置处理以生成排名,根据所述排名输出文本识别结果包括:
对所述标准语料库的标准词汇和所述准标准语料库中的准标准词汇进行向量化处理;
根据所述向量化处理结果,计算所述标准词汇的向量和所述准标准词汇的向量的余弦相似度;
基于余弦相似度生成相似度排名,选择排名大于设定阈值的所述标准词汇所对应的标准文本作为目标文本输出。
7.根据权利要求6所述的文本识别方法,其中,所述目标文本还包括与所述标准文本对应的标准编号。
8.根据权利要求1至7中任一项所述的文本识别方法,其中,所述非标准文本内容包括用户输入的文本内容,所述标准文本内容包括存储在服务器的设定文本内容。
9.一种银行转账方法,应用于付款服务器,包括:
接收银行账户的转账请求,所述转账请求包括:付款账户信息、收款账户信息和转账金额信息;
比对所述转账请求中的所述付款账户信息与付款服务器中的第一标准账户信息;
基于比对结果向收款服务器进行转账交易;
其中所述付款账户信息和收款账户信息中的至少一者是通过权利要求1至8中任一项所述的文本识别方法识别获取的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110867483.5/1.html,转载请声明来源钻瓜专利网。