[发明专利]字符串挖掘方法、装置、电子设备及计算机可读存储介质在审
申请号: | 201711230875.0 | 申请日: | 2017-11-29 |
公开(公告)号: | CN107992570A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 李泽中 | 申请(专利权)人: | 北京小度信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京智信四方知识产权代理有限公司11519 | 代理人: | 刘真 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符串 挖掘 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种字符串挖掘方法,其特征在于,所述方法包括:
获取训练字符串数据集,其中,所述训练字符串数据集包括训练字符串数据和字符串特征数据;
对所述训练字符串数据集进行训练,得到目标字符串判断模型;
根据所述目标字符串判断模型对测试字符串进行目标字符串判断。
2.根据权利要求1所述的方法,其特征在于,所述获取训练字符串数据集中获取训练字符串数据,包括:
获取历史字符串数据;
将所述历史字符串数据中确认为目标字符串的数据作为训练正样本;
将所述历史字符串数据中确认为非目标字符串的数据作为训练负样本;
基于所述训练正样本和训练负样本生成训练字符串数据。
3.根据权利要求1所述的方法,其特征在于,所述字符串特征数据包括:字符串w在预设历史时间段内的词频分值,字符串w的互信息分值,字符串w的信息熵分值,字符串w是否为预设名称中的一种或多种。
4.根据权利要求1所述的方法,其特征在于,所述对训练字符串数据集进行训练,得到目标字符串判断模型,包括:
基于所述训练字符串数据集训练得到与字符串特征数据对应的特征权重值;
基于所述字符串特征数据的权重值生成目标字符串判断模型。
5.根据权利要求4所述的方法,其特征在于,所述基于训练字符串数据集训练得到与字符串特征数据对应的特征权重值,包括:
基于所述训练字符串数据集进行训练,得到特征权重确定模型;
基于所述特征权重确定模型确定与所述字符串特征数据对应的特征权重值。
6.根据权利要求4所述的方法,其特征在于,所述基于所述字符串特征数据的权重值生成目标字符串判断模型,包括:
根据所述字符串特征数据的权重值生成字符串w为目标字符串的概率计算模型;
将概率符合预设条件的字符串确认为目标字符串。
7.根据权利要求6所述的方法,其特征在于,所述概率计算模型表示为:
其中,fi表示字符串特征数据中的第i个特征,λi表示第i个特征fi对应的权重值,p表示字符串为目标字符串的概率值。
8.一种字符串挖掘装置,其特征在于,所述装置包括:
获取模块,被配置为获取训练字符串数据集,其中,所述训练字符串数据集包括训练字符串数据和字符串特征数据;
训练模块,被配置为对所述训练字符串数据集进行训练,得到目标字符串判断模型;
判断模块,被配置为根据所述目标字符串判断模型对测试字符串进行目标字符串判断。
9.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现如权利要求1-7任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小度信息科技有限公司,未经北京小度信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711230875.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水泥生产线的远程调控系统
- 下一篇:一种民爆物品动态监控物联网系统