[发明专利]一种特征识别方法、系统、电子设备及存储介质在审
申请号: | 202110839087.1 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113379003A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 熊伟灼;杨青 | 申请(专利权)人: | 重庆度小满优扬科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京知帆远景知识产权代理有限公司 11890 | 代理人: | 刘岩磊 |
地址: | 401121 重庆市渝*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 识别 方法 系统 电子设备 存储 介质 | ||
本发明实施例提供了一种特征识别方法、系统、电子设备及存储介质。本方案根据待识别特征所处的时间段是否发生外部环境变化,来对待识别特征分别添加标记,并根据待识别特征和相应的标记训练得到识别模型,根据识别模型的识别评分和各个待识别特征的重要性评分来确定容易受到外部环境影响的特征数据,并进一步调整样本数据,重新的训练识别模型,直至完成对所有容易受到外部环境影响的特征数据的识别,以此来完成对于各个待识别特征的识别,后续需要进行大数据分析时,只采集不会受到外部环境影响的特征数据,从而保证进行其他大数据分析的特征数据外部环境的影响,保证大数据分析的准确性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种特征识别方法、系统、电子设备及存储介质。
背景技术
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习的基础是不断发展的大数据分析,理论上来说,没有数据的支持,机器学习方法也是无法存在的,但是用户或者外部环境的数据存在不同的种类,有些数据比较容易收到外部事件的干扰,而有些事件则不容易受到外部事件的干扰,在基于特征数据对行为进行预测时,所采集的数据是一个比较长的时间线上的数据,一旦用户使用较容易受到外部事件的干扰的数据进行机器学习,容易受到外部事件干扰的特征数据在不同时间段内就会出现波动,但是数据量十分庞大,用户也无法针对每个时间段采集的数据进行筛选,这就使得最终预测的结果容易因为不稳定的特征数据而出现偏差。综上,现有技术存在无法确定特征数据是否容易受到外部事件的干扰的问题。
发明内容
本发明的至少一个实施例提供了一种数据清洗方法、装置、电子设备及存储介质,以便于解决现有技术采用被污染的样本建模,导致模型预测不准的问题。
第一方面,本发明实施例提供了一种特征识别方法,所述识别方法包括:
对所述第一样本数据中的待识别特征添加第一标记,对第二样本数据的待识别特征添加第二标记;所述第一样本数据为外部环境发生变化时各个用户的特征数据,所述第二样本数据为所述外部环境稳定时各个所述用户的特征数据;
对所述第一样本数据和所述第二样本数据进行随机分组,得到训练集合和评估集合;
通过所述训练集合中的第一样本数据和第二样本数据的待识别特征和相应的标记,训练得到识别模型;
通过所述识别模型对所述评估集合进行识别,得到识别结果,根据所述识别结果确定所述识别模型的识别评分;其中,所述识别评分与所述识别模型的识别能力呈正比;
当所述识别评分大于预设评分阈值时,获取各个所述待识别特征的重要性评分,并按从大至小的顺序,将重要性评分排名在前预设名次的待识别特征作为容易受外部环境影响的特征数据;将容易受外部环境影响的特征数据从所述第一样本数据和第二样本数据中剔除,通过剔除特征数据后的第一样本数据和第二样本数据重新分组得到训练集合和评估集合,并重新训练得到所述识别模型,直至所述识别评分小于或等于预设评分阈值;
当所述识别评分小于或等于与预设评分阈值时,将所述第一样本数据和所述第二样本数据中的待识别特征,作为不会受到外部环境影响的特征数据。
基于上述技术方案,本发明实施例还可以做出如下改进。
结合第一方面,在第一方面的第一种实施例中,所述通过所述识别模型对所述评估集合进行识别,得到识别结果,根据所述识别结果确定所述识别模型的识别评分,包括:
通过所述识别模型,识别所述评估集合中的各个第一样本数据的各个待识别特征为第一标记的特征数据的第一概率;计算所有所述第一概率的平均值,得到第一平均概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆度小满优扬科技有限公司,未经重庆度小满优扬科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110839087.1/2.html,转载请声明来源钻瓜专利网。