[发明专利]数据处理方法和装置,存储介质和电子设备在审
申请号: | 201910386334.X | 申请日: | 2019-05-09 |
公开(公告)号: | CN111914093A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 周立;伍家俊 | 申请(专利权)人: | 深圳中兴飞贷金融科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F16/33;G06F16/9535 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曾尧 |
地址: | 518000 广东省深圳市粤海街道科苑路11号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 存储 介质 电子设备 | ||
本公开的目的是提供一种数据处理方法和装置,存储介质和电子设备,以解决相关技术中对公司名称的解析处理不够高效的问题。所述方法包括:根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段;确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段;根据所述目标样本字段更新所述目标词库。
技术领域
本公开涉及数据处理领域,具体地,涉及一种数据处理方法和装置,存储介质和电子设备。
背景技术
随着互联网金融的发展,越来越多的业务场景需要用户信息来做相关决策分析。通过公司名称可以了解到用户的背景,有助于构建用户的“画像”。相关技术中,在获取到用户输入公司名称之后,还需要解析公司名称中的关键字。公司名称中往往由多个字段组成,比如,“北京蓝天绿树网络科技有限责任公司”中的行政区域类型字段“北京”,行业类型字段“网络科技”,以及公司类字段“有限责任公司”,剩下的则为商号字段“蓝天绿树”。具体实施时,需要通过建立针对不同类型字段的词集,以便于对公司名称进行解析、匹配等操作。
相关技术中,不同类型字段的词集主要由人工录入。针对行政区域词集,内容较为有限且不会随时间变化,人工录入的工作量较小。然而,针对行业类型的词集,其内容随着发展商业模式的发展不断地更新变化,人工从海量样本公司名称中提取行业类型字段再进行录入,耗时耗力且效率较低。
发明内容
本公开的目的是提供一种数据处理方法和装置,存储介质和电子设备,以解决相关技术中对公司名称的解析处理不够高效的问题。
为了实现上述目的,本公开提供一种数据处理方法,所述方法包括:
根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;
通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段;
确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段;
根据所述目标样本字段更新所述目标词库。
可选地,所述目标词库包括行政区域类型词集、公司类型词集和行业类型词集。
可选地,所述根据所述目标样本字段更新所述目标词库,包括:
将所述目标样本字段计入所述目标词库的所述行业类型词集。
可选地,所述通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段,包括:
确定多个所述样本字段中词频符合第二预设词频条件的样本字段;
将词频符合第二预设词频条件的所述样本字段中,未存在于所述行政区域类型词集和所述公司类型词集的样本字段作为所述待选样本字段。
可选地,所述方法还包括:
获取由用户输入的待检公司名称;
根据所述预设的分词模型对所述待检公司名称进行字段划分处理,得到待检字段;
将所述待检字段与更新后的所述目标词库的进行匹配,确定所述待检公司名称中未包含在更新后的所述目标词库中的目标待检字段;
确定所述目标待检字段为所述待检公司名称的关键字段,所述关键字段用于所述待检公司名称与其他用户输入的待检公司名称的名称匹配操作。
本公开提供一种数据处理装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳中兴飞贷金融科技有限公司,未经深圳中兴飞贷金融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910386334.X/2.html,转载请声明来源钻瓜专利网。