[发明专利]一种基于大数据的政策画像AI建模系统及方法有效
申请号: | 202010710723.6 | 申请日: | 2020-07-22 |
公开(公告)号: | CN111813890B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 毛善奇;吕骅;王佳 | 申请(专利权)人: | 江苏宏创信息科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/30;G06F40/289;G06F40/216;G06F16/35;G06F16/951 |
代理公司: | 南京常青藤知识产权代理有限公司 32286 | 代理人: | 高远 |
地址: | 210019 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 政策 画像 ai 建模 系统 方法 | ||
1.一种基于大数据的政策画像AI建模方法,其特征在于,包括:建模系统,所述建模系统包括:
大数据模块,用于结构化存储所有的政策样本数据;
检索模块,用于政策画像的快速检索;
政策抓取模块,用于政策信息的自动化抓取;
画像模块,用于政策原文处理、政策画像样本训练、画像建模、画像纠错和画像算法管理;
系统管理模块,用于用户和功能的权限管理、交互展示及大屏视觉展示;
消息中间件,用于上述各个模块的消息信息互通;
所述政策抓取模块用于配置政策发布地址、抓取范围、周期和时间点,并开启政策原文获取;
所述画像模块包括原文处理引擎、政策画像样本训练引擎、画像建模引擎、画像纠错模块和画像算法管理模块;所述原文处理引擎用于对政策原文进行语义分析并通过分词拆解原文,经过过滤库过滤掉非元数据关键词,提取所有可能是针对企业或人的元数据关键词,存入所述大数据模块样本库;政策画像样本训练引擎,用于计算元数据关键词的相关性,优化政策关键词库;画像建模引擎,用于提取出类别元数据关键词,建立政策的分类项,并提取出匹配元数据关键词,语义获取关键词属性,建立政策的匹配项,完成政策画像建立;画像纠错模块用于调整健康度低的匹配条款、类别元数据,更新政策画像;画像算法管理模块用于管理运行上述画像模块;
建模方法,包括以下步骤:
配置政策任务,进行政策原文自动获取;
对政策原文进行语义分析,并通过分词拆解原文,经过过滤库过滤掉非元数据关键词,提取所有可能是针对企业或人的元数据关键词,存入大数据模块样本库;
通过样本训练计算元数据关键词的相关性,优化政策关键词库;
画像建模,提取出类别元数据关键词,建立政策的分类项,并提取出匹配元数据关键词,语义获取关键词属性,建立政策的匹配项,完成政策画像建立;
政策画像检索建立,包括以下步骤:
S5.1:从画像检索建立队列中获取画像信息;
S5.2:判断是政策新增还是政策修订,新增则插入数据,修订则修改数据;
S5.3:通过画像分类元数据建立政策原文的分类检索条件;
S5.4:通过画像匹配元数据建立政策原文的匹配检索条件;
画像建模即政策原文的属性分析,包括以下步骤:
S4.1:从画像原文队列中获取原文与词汇信息;
S4.2:基于关键词库,建立该政策原文的关键词;
S4.3:从关键词列表中获取匹配关键词,以及匹配的样本;
S4.4:从原文匹配关键词前后摘取一定文字,基于匹配样本通过KMP算法,提取匹配值;
S4.5:如提取不到匹配值,则该画像提取暂停告警,由人为介入,添加匹配样本,再次启动提取;
S4.5:政策画像建立完成,存入画像检索建立队列中;
同时,将政策画像存入画像检索和索引建立队列中进行展示;
调整健康度低的匹配条款、类别元数据进行画像纠错,更新政策画像;
画像纠错包括通过管理页面修正政策画像和基于机器自学习自动化纠错;其步骤为:
通过管理页面修正政策画像包括以下步骤:
S6.1:新增、删除分类元数据;
S6.2:新增、删除匹配元数据与匹配样本;
S6.3:获取涉及到修改的元数据的政策画像信息,更新画像信息,并存入画像索引建立队列中;
基于机器自学习自动化纠错包括以下步骤:
S7.1:根据元数据健康模型:建立时间、涉及政策的相关度、关键词出错率、后台审核通过,筛选出需要演算的元数据;
S7.2:对元数据以准确率、精确率、召回率和F1-Measure为模型,计算该元数据在所有相关政策画像的打分;
S7.3:低于阈值分值的元数据提交到后台人工审核是否需要修正;
S7.4:获取涉及到修改的元数据的政策画像信息,更新画像信息,并存入画像索引建立队列中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏宏创信息科技有限公司,未经江苏宏创信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010710723.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置