[发明专利]一种构建半自动智能文本处理系统的方法在审
申请号: | 201911106947.X | 申请日: | 2019-11-13 |
公开(公告)号: | CN111177235A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 徐九韵;郝壮远 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/2458 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构建 半自动 智能 文本 处理 系统 方法 | ||
1.A.数据接入:数据分为流处理和批处理两类。流处理主要考虑未来信息系统有生产运行动态数据接入后能基于实时动态数据进行分析处理。批处理主要针对安全监管数据的分析应用。
B.大数据平台原始表层(贴元层):数据预处理以及分析方法是多样的,在处理的过程中可能需要反复与原始数据进行核对,贴元层的设计目的是保留信息系统流入的原始数据,增加后续数据预处理等环节的容错能力。
C.数据预处理表层:主要是对数据进行拆分、去空值等工作。事故事件的预处理过程已经确定,平台的建设过程中实现事故事件数据预处理表层的具体设计。
D.标签管理工具:标签工具是.py程序,在应用的过程中是逐条读取表里的数据进行标签标注.工具的输入是csv表,输出是csv表,因此数据预处理表层要设计两个csv数据接口,输出数据给标签工具,并接收来自标签数据表层的csv数据。
E.机器学习模型训练代码:训练数据回填到数据预处理表层存储,并将其喂给机器学习模型训练代码,经过训练形成预测模型。
F.预测模型:形成的预测模型即是用来进行文本分类的模型,是一个ftm文件。
G.机器学习模型应用代码:上载预测模型的代码,这个代码的输入是待预测的数据(这个数据和训练数据构成预处理数据的全集),输出的预测后的数据再回填入数据预处理表层。
H.数据呈现:数据预处理表层的数据流入数据呈现层,数据呈现层的数据直接连接BI工具或者可视化展示程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911106947.X/1.html,转载请声明来源钻瓜专利网。