[发明专利]一种汇票交易机器人的买票信息识别方法和识别器在审
申请号: | 201811004648.0 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109241532A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 张壳;田标 | 申请(专利权)人: | 天津做票君机器人科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/215;G06Q40/04 |
代理公司: | 济南鼎信专利商标代理事务所(普通合伙) 37245 | 代理人: | 曹玉琳 |
地址: | 300450 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票信息 格式化数据 元素作用 机器人 汇票 格式化 词频 入库 关键词信息 输出格式化 词性标注 分词结果 格式化为 后台数据 结果解析 垃圾信息 位置标注 元素类型 识别器 新数据 补充 分词 去重 交易 匹配 过滤 清洗 删除 写入 数据库 标准化 规范化 查询 合并 利率 分类 转换 银行 | ||
1.一种汇票交易机器人的买票信息识别方法,其特征在于,包括如下步骤:
S1、通过计算后台数据的词频,将垃圾信息词频与买票信息词频对比,得到垃圾信息关键词,以过滤垃圾信息;
S2、对买票信息进行清洗以及初步规范化;
S3、根据提取元素类型和特征不同,选择不同分词方法,按照分词结果提取元素;
S4、对提取的元素进行格式化和标准化转换;
S5、对元素进行词性标注和位置标注;
S6、按照位置和关键词信息确定元素作用域和元素优先级,并在元素作用域内,将所有利率元素补充上该元素;
S7、将补充结果解析为格式化数据;
S8、将格式化数据去重,对银行进行分类合并,格式化为入库格式;
S9、入库前查询和和删除已有数据,将新数据写入数据库。
2.如权利要求1所述的一种汇票交易机器人的买票信息识别方法,其特征在于,在步骤S4中,转换的元素集中在承兑人、日期、金额三中类型的元素上。
3.如权利要求2所述的一种汇票交易机器人的买票信息识别方法,其特征在于,对于承兑人元素是进行简称和全称的转换;对于金额元素,根据表达方式分为汉字和数字,表达作用域分为范围型、以上型、以下型、准确型;对于日期元素,根据表述方式的作用域分为范围型、以上型、以下型。
4.如权利要求1所述的一种汇票交易机器人的买票信息识别方法,其特征在于,在步骤S5中,按照元素类型分为金额、日期、承兑人、利率四中词性,依次对元素进行标注,同时按照元素所在行列进行位置标注,使用二维数组存放以上信息。
5.如权利要求1所述的一种汇票交易机器人的买票信息识别方法,其特征在于,在步骤S6中,元素所在位置按照所在行有没有利率信息分为单独成行和非单独成行,单独成行按照与利率所在行的相对位置分为段首、段中、段末,非单独成行按照与利率相对位置分为行首、行中、行末,元素作用于大小由元素所在位置和与下一个元素的间隔决定,元素优先级由元素的位置决定,其中行末>行中>行首=段首=段中=段末。
6.如权利要求1所述的一种汇票交易机器人的买票信息识别方法,其特征在于,在步骤S8中,对重复数据去重同时对相同条件的单个银行进行合并,补充银行大类类型,对银行大类,补充详细的银行列表,然后格式化为入库格式。
7.一种汇票交易机器人的买票信息识别器,其特征在于:该识别器使用权利要求1~6任一项所述的识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津做票君机器人科技有限公司,未经天津做票君机器人科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811004648.0/1.html,转载请声明来源钻瓜专利网。