[发明专利]一种文本类数据质量监控系统有效
申请号: | 201810999320.0 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109344394B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 覃剑钊;陈海雯;杜瑞罡;蒋荣;谢军 | 申请(专利权)人: | 广发证券股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06Q40/04;G06F40/247 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;麦小婵 |
地址: | 510663 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 数据 质量 监控 系统 | ||
本发明公开了一种文本类数据质量监控方法,其包括如下步骤:1)对待监控文本的读取设置;2)读取待监控文本,并约定标准格式;3)设置监控模型超参数;4)对监控规则进行自学习,和自动更新监控规则;5)人工对自生成的文本监控规则进行修改和调整;6)计算,并判断该新增数据是否触发数据异常报警;7)推送监控报警信息;8)接收反馈信息;其还公开了一种文本类数据质量监控系统;本发明提供的方法提高数据质量监控的质量、效率及覆盖面;系统支持人工设定监控规则,还能利用机器学习技术从文本中提取特征,利用待监控历史文本数据进行建模,人工可以接受自学习的默认规则也可以修改参数、添加手动规则,人机结合提供规则的可靠性。
技术领域
本发明涉及金融数据质量监控领域,尤其是涉及一种文本类数据质量监控方法与系统。
背景技术
文本数据是金融数据的重要组成部分,这些数据包括投资标的资讯、投资标的公告、产品说明、以及金融公司内部的文本交互等。这些文本数据是金融公司提供客户服务的重要基础,也是公司正常运行的重要基础。如果文本数据的完整性、正确性出现问题,轻则导致客户对公司的忠诚度下降,重则影响到客户的投资决策。如果公司内部的文本数据出现错误,会影响公司内部的日常运营,及时对文本数据的异常进行报警有利于发现公司内部文本流转过程中出现的合规风险。
本发明提出一种针对金融文本类数据质量监控方法及系统实现方案。该方法将人工设定的文本质量监控规则与机器自学习的文本质量监控规则相结合,以提高数据质量监控的质量、效率及覆盖面。系统即支持人工设定监控规则,还能利用机器学习技术从文本中提取特征,利用待监控历史文本数据进行建模,从而自动生成文本数据监控规则,人工可以接受自学习的默认规则也可以在自学习规则的基础上修改参数、添加手动规则,人机结合提供规则的可靠性。
发明内容
针对现在技术存在的上述不足,本发明的目的在于提供一种文本类数据质量监控方法,其包括如下步骤:
(1)对待监控文本的读取设置;
(2)根据步骤(1)的读取配置,从数据库中读取待监控数据,并把数据标准化成约定的格式;
(3)对智能监控规则模型,或自定义的文本监控模型超参数进行设置;
(4)根据智能监控规则模型和步骤(3)设置的自定义模型以及步骤(2)提取的历史文本特征对监控规则进行自学习,和根据待监控文本的更新特征对监控规则进行自动更新来适应文本特征的动态变化;
(5)人工对自生成的文本监控规则进行修改和调整,完善监控规则,或者由人工自主定义新的监控规则;
(6)根据步骤(4)自生成的数据监控规则综合步骤(5)人工自定义规则对新增待监控数据进行计算,并判断该新增数据是否触发数据异常报警;
(7)将输出的监控报警信息,包括触发报警的数据基本信息及报警级别等,利用消息推送系统,通过微信、短信、应用App等渠道推送给客户;
(8)接收运维人员对监控报警的反馈信息,并将该反馈信息反馈给数据监控规则更新模块根据人工反馈对监控规则进行调整和优化。
进一步地,所述步骤(2)包括如下步骤:
(2.1)根据数据读取配置从待监控数据池或数据API中读取数据;
(2.2)对步骤(2.1)中提取的数据文本进行数据向量化处理;
(2.2.1)分词与词向量模型建立与更新;
(2.2.1.1)金融类文本词汇收集与词库扩充;
(2.2.1.2)分词与词向量模型建立;
(2.2.1.3)定期更新词库与模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广发证券股份有限公司,未经广发证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810999320.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置