[发明专利]制度信息处理方法、装置、计算机系统和介质在审
申请号: | 202010481834.4 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111639161A | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 肖向博 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06Q10/10 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 葛琪妮 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 制度 信息处理 方法 装置 计算机系统 介质 | ||
1.一种制度信息处理方法,应用于计算机系统,所述方法包括:
获取指定企业的制度信息;
构建用于表征所述制度信息的第一特征向量;
获取用于表征所述指定企业所在地区的监管要求信息的第二特征向量;
基于所述第一特征向量和所述第二特征向量,确定所述监管要求信息和所述制度信息之间的匹配度;以及
当所述匹配度低于预定阈值时,向所述指定企业的终端推送指示所述指定企业的制度制定不符合其所在地区的监管要求的提示信息。
2.根据权利要求1所述的方法,还包括:
在所述构建用于表征所述制度信息的第一特征向量之前,确定所述制度信息的语言是否为简体中文;以及
如果否,则将所述制度信息的语言转换为简体中文。
3.根据权利要求1所述的方法,其中,所述构建用于表征所述制度信息的第一特征向量包括:
利用预先构建的词频-逆文档频率模型对所述制度信息进行处理,以得到所述第一特征向量。
4.根据权利要求3所述的方法,其中,所述利用预先构建的词频-逆文档频率模型对所述制度信息进行处理,以得到所述第一特征向量包括:
将所述制度信息输入所述词频-逆文档频率模型,以由所述词频-逆文档频率模型执行如下操作:
对所述制度信息进行分词处理,以得到多个分词结果;
统计所述多个分词结果中的每个分词结果在所述制度信息中的词频;
基于所述每个分词结果的词频和预设语料库,确定所述每个分词结果的词频-逆文档频率特征;以及
基于所述多个分词结果各自的词频-逆文档频率特征,构建所述第一特征向量。
5.根据权利要求1所述的方法,其中,所述构建用于表征所述制度信息的第一特征向量包括:
利用预先构建的词集模型将所述制度信息表示为独热向量,以作为所述第一特征向量。
6.根据权利要求1所述的方法,其中,所述获取用于表征所述指定企业所在地区的监管要求信息的第二特征向量包括:
确定所述计算机系统的预定存储区域是否存在所述监管要求信息的第二特征向量;
如果是,则从所述预定存储区域读取所述第二特征向量;
如果否,则利用网络爬虫从指定网页抓取所述监管要求信息,其中所述指定网页用于展示所述监管要求信息;以及
构建用于表征所述监管要求信息的第二特征向量,并将所述第二特征向量存储至所述预定存储区域。
7.根据权利要求6所述的方法,还包括:
监测所述指定网页;
当监测到所述指定网页的更新事件时,利用网络爬虫从所述指定网页抓取更新后的监管要求信息;以及
基于所述更新后的监管要求信息,构建用于表征所述监管要求信息的第二特征向量,并将所述第二特征向量存储至所述预定存储区域。
8.根据权利要求6或7所述的方法,其中,所述构建用于表征所述监管要求信息的第二特征向量包括:
利用预先构建的词频-逆文档频率模型对所述监管要求信息进行处理,以得到所述第二特征向量;或者
利用预先构建的词集模型将所述监管要求信息表示为独热向量,以作为所述第二特征向量。
9.根据权利要求1所述的方法,其中,所述基于所述第一特征向量和所述第二特征向量,确定所述监管要求信息和所述制度信息之间的匹配度包括如下至少一项:
计算所述第一特征向量和所述第二特征向量之间的匹配系数,并根据所述匹配系数确定所述匹配度;
计算所述第一特征向量和所述第二特征向量之间的余弦相似度,并根据所述余弦相似度确定所述匹配度;以及
计算所述第一特征向量和所述第二特征向量之间的明科夫斯基距离,并根据所述明科夫斯基距离确定所述匹配度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010481834.4/1.html,转载请声明来源钻瓜专利网。