[发明专利]字符串挖掘方法、装置、电子设备及计算机可读存储介质在审
申请号: | 201711230875.0 | 申请日: | 2017-11-29 |
公开(公告)号: | CN107992570A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 李泽中 | 申请(专利权)人: | 北京小度信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京智信四方知识产权代理有限公司11519 | 代理人: | 刘真 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符串 挖掘 方法 装置 电子设备 计算机 可读 存储 介质 | ||
技术领域
本公开涉及信息处理技术领域,具体涉及一种字符串挖掘方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网技术的发展,越来越多的商家或者服务提供商通过互联网平台来为用户提供服务,并力求提高服务质量,增强用户体验,争取更多的用户订单,以提升现有资源的利用率,为商家或者服务提供商创造更多的价值。但目前用户在使用商家或者服务提供商提供的检索服务时,检索结果命中率并不能满足用户的要求,从而削弱了用户体验。
发明内容
本公开实施例提供一种字符串挖掘方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种字符串挖掘方法。
具体的,所述字符串挖掘方法,包括:
获取训练字符串数据集,其中,所述训练字符串数据集包括训练字符串数据和字符串特征数据;
对所述训练字符串数据集进行训练,得到目标字符串判断模型;
根据所述目标字符串判断模型对测试字符串进行目标字符串判断。
结合第一方面,本公开在第一方面的第一种实现方式中,所述获取训练字符串数据集中获取训练字符串数据,包括:
获取历史字符串数据;
将所述历史字符串数据中确认为目标字符串的数据作为训练正样本;
将所述历史字符串数据中确认为非目标字符串的数据作为训练负样本;
基于所述训练正样本和训练负样本生成训练字符串数据。
结合第一方面,本公开在第一方面的第一种实现方式中,所述字符串特征数据包括:字符串w在预设历史时间段内的词频分值,字符串w的互信息分值,字符串w的信息熵分值,字符串w是否为预设名称中的一种或多种。
结合第一方面,本公开在第一方面的第一种实现方式中,所述对训练字符串数据集进行训练,得到目标字符串判断模型,包括:
基于所述训练字符串数据集训练得到与字符串特征数据对应的特征权重值;
基于所述字符串特征数据的权重值生成目标字符串判断模型。
结合第一方面,本公开在第一方面的第一种实现方式中,所述基于训练字符串数据集训练得到与字符串特征数据对应的特征权重值,包括:
基于所述训练字符串数据集进行训练,得到特征权重确定模型;
基于所述特征权重确定模型确定与所述字符串特征数据对应的特征权重值。
结合第一方面,本公开在第一方面的第一种实现方式中,所述基于所述字符串特征数据的权重值生成目标字符串判断模型,包括:
根据所述字符串特征数据的权重值生成字符串w为目标字符串的概率计算模型;
将概率符合预设条件的字符串确认为目标字符串。
结合第一方面,本公开在第一方面的第一种实现方式中,所述概率计算模型表示为:
其中,fi表示字符串特征数据中的第i个特征,λi表示第i个特征fi对应的权重值,p表示字符串为目标字符串的概率值。
结合第一方面,本公开在第一方面的第一种实现方式中,将概率符合预设条件的字符串确认为目标字符串,包括:
将概率大于预设概率阈值的字符串确认为目标字符串。
结合第一方面,本公开在第一方面的第一种实现方式中,所述测试字符串为预设历史时间段内输入的字符串。
结合第一方面和第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述方法还包括:对所述目标字符串执行预设操作。
第二方面,本公开实施例中提供了一种字符串挖掘装置。
具体的,所述字符串挖掘装置,包括:
获取模块,被配置为获取训练字符串数据集,其中,所述训练字符串数据集包括训练字符串数据和字符串特征数据;
训练模块,被配置为对所述训练字符串数据集进行训练,得到目标字符串判断模型;
判断模块,被配置为根据所述目标字符串判断模型对测试字符串进行目标字符串判断。
结合第二方面,本公开在第二方面的第一种实现方式中,所述获取模块包括:
获取子模块,被配置为获取历史字符串数据;
第一确认子模块,被配置为将所述历史字符串数据中确认为目标字符串的数据作为训练正样本;
第二确认子模块,被配置为将所述历史字符串数据中确认为非目标字符串的数据作为训练负样本;
第一生成子模块,被配置为基于所述训练正样本和训练负样本生成训练字符串数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小度信息科技有限公司,未经北京小度信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711230875.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水泥生产线的远程调控系统
- 下一篇:一种民爆物品动态监控物联网系统