[发明专利]结构化数据的知识挖掘方法及系统在审
申请号: | 201811142866.0 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109460420A | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 王军平 | 申请(专利权)人: | 北京赛博贝斯数据科技有限责任公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/215 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健;张国香 |
地址: | 102200 北京市昌平区沙*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识挖掘 结构化数据 数据清洗 构建 采集 目标数据 目标信息 数据分析 准确率 | ||
本发明公开了一种结构化数据的知识挖掘方法及系统,通过采集需进行知识挖掘的结构化数据,并对采集的结构化数据进行数据清洗;根据目标数据特征,对数据清洗后的结构化数据进行数据分析,根据分析结果构建知识挖掘模型;利用知识挖掘模型,从结构化数据中提取出对应的目标信息;具有根据具体的知识挖掘需求构建对应的知识挖掘模型的有益效果,从而提高了知识挖掘的针对性和知识挖掘的准确率。
技术领域
本发明涉及数据处理技术领域,特别涉及一种结构化数据的知识挖掘方法及系统。
背景技术
随着互联网的发展和普及,各种信息呈现了爆炸式增加;若通过人为的方式来获取有用的信息费时费力,且非常困难;因此如何从海量的信息中获取所需要的内容并能够将获取的内容以有用的知识呈现,成为用户普遍关注的焦点。现有的针对海量数据进行知识挖掘时,更侧重根据已知的知识预先进行人工模型的建立,然后根据既定的人工模型进行知识挖掘。这种处理方式由于采用既定的模型进行知识挖掘,在不同应用场景中模型的匹配度不高,因此知识挖掘的效果也不明显。
发明内容
本发明提供一种结构化数据的知识挖掘方法及系统,用以根据具体的知识挖掘需求构建对应的知识挖掘模型,提高知识挖掘的针对性和知识挖掘的准确率。
本发明提供了一种结构化数据的知识挖掘方法,所述结构化数据的知识挖掘方法包括:
采集需进行知识挖掘的结构化数据,并对采集的结构化数据进行数据清洗;
根据目标数据特征,对数据清洗后的结构化数据进行数据分析,根据分析结果构建知识挖掘模型;
利用知识挖掘模型,从结构化数据中提取出对应的目标信息。
进一步地,所述采集需进行知识挖掘的结构化数据,并对采集的结构化数据进行数据清洗,包括:
从待进行知识挖掘的对应数据库中,采集所有的结构化数据;
针对已采集的结构化数据,进行数据筛选,判断所述结构化数据是否存在缺失;若存在缺失,则根据预设处理方式,填充缺失字段或者删除缺失字段;
优化筛选后的结构化数据,验证所述结构化数据的正确性并对重复的结构化数据进行去重处理;
分析优化后的结构化数据中是否存在异类数据;若存在异类数据,则对存在的异类数据进行修改或者删除。
进一步地,所述根据目标数据特征,对数据清洗后的结构化数据进行数据分析,根据分析结果构建知识挖掘模型,包括:
根据所需的目标数据的数据特征,将语义推理和机器学习方法相结合,进行机器学习;
提取出所述目标数据中的关键字,并将提取出的关键字与所述结构化数据进行对比;
根据所述结构化数据中关键字的出现次数,计算所述结构化数据与所述目标数据的相关度分值,并将得到的相关度分值与预设门限值进行比较;
若得到的相关度分值大于或者等于所述预设门限值,则将对应的结构化数据作为与所述目标数据相关的内容数据;若得到的相关度分值小于所述预设门限值,则将对应的结构化数据作为与所述目标数据不相关的内容数据;
根据比较结果,构建知识挖掘模型。
进一步地,所述根据比较结果,构建知识挖掘模型,包括:
根据比较结果,构建多个知识挖掘模型;
利用交叉验证的测试方法,对构建的多个知识挖掘模型进行测试;
根据测试结果,对构建的知识挖掘模型进行参数调优;
对参数调优后的多个知识挖掘模型进行评估;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛博贝斯数据科技有限责任公司,未经北京赛博贝斯数据科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811142866.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种设备状态变化事件监测方法
- 下一篇:商户交易数据管理方法及装置