[发明专利]一种数据处理方法、装置、设备及存储介质在审
申请号: | 202210077976.3 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114416996A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 张彤;高洪伟;吕贵林;张文权;闫明毅;富文泰;马剑桥 | 申请(专利权)人: | 中国第一汽车股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/383;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 鲁艳萍 |
地址: | 130011 吉林省长*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括:
获取由车辆适配层采集的多模态数据;其中,所述多模态数据至少包括车辆信息、云端信息、用户信息和行为信息;
根据所述多模态数据确定至少一个车载场景,确定与各所述车载场景对应的标签数据集;
对每一个所述标签数据集中各标签数据进行组合,确定与所述标签数据集对应的至少一条描述性语句;
根据各所述描述性语句确定各所述标签数据集对应的目的特征参数,通过各所述目的特征参数对各所述描述性语句进行标注,根据标注后的各所述描述性语句生成结构化数据集合。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多模态数据确定至少一个车载场景,确定与各所述车载场景对应的标签数据集,包括:
对所述多模态数据进行聚类,确定至少一种场景标签信息;
根据各所述场景标签信息将所述多模态数据划分为与各所述场景标签信息对应的场景标签数据集;
由各所述场景标签数据集中各提取一个场景标签数据,将各所述场景标签数据对应的场景确定为一个车载场景,并将各所述场景标签数据的集合确定为与所述车载场景对应的标签数据集。
3.根据权利要求2所述的方法,其特征在于,所述根据各所述场景标签信息将所述多模态数据划分为与各所述场景标签信息对应的场景标签数据集,包括:
针对每一个所述场景标签信息,由所述多模态数据中提取与所述场景标签信息对应的至少一个原始数据;
根据预设标签转写规则将所述原始数据与所述场景标签信息进行转写组合,并将组合后的所述原始数据与所述场景标签信息确定为场景标签数据;
将各所述场景标签数据的集合确定为与所述场景标签信息对应的场景标签数据集。
4.根据权利要求1所述的方法,其特征在于,所述对每一个所述标签数据集中各标签数据进行组合,确定与所述标签数据集对应的至少一条描述性语句,包括:
将每一个所述标签数据集中各标签数据按照不同顺序排列,生成大于第一预设数量的标签数据组合;
根据预设数据扩写规则对各所述标签数据组合进行扩写,生成与各所述标签数据组合对应的描述性语句,并将所述描述性语句确定为与所述标签数据集对应的描述性语句。
5.根据权利要求1所述的方法,其特征在于,所述根据各所述描述性语句确定各所述标签数据集对应的目的特征参数,包括:
确定同一标签数据集中各所述描述性语句的语义特征;
根据预设置信度设置规则确定各所述语义特征的置信度,并根据置信度对各所述语义特征进行排序;
将排序位于前第二预设数量的语义特征确定为与所述标签数据集对应的目的特征参数。
6.根据权利要求5所述的方法,其特征在于,所述根据预设置信度设置规则确定各所述语义特征的置信度,包括:
对各所述语义特征进行聚类,确定语义特征群;
确定各所述语义特征群在所有语义特征中所占的比重,并将比重小于预设阈值的语义特征群确定为待处理语义特征群;
若所述待处理语义特征群的语义特征含义与比重大于预设阈值的语义特征群相反,则删除与所述待处理语义特征群对应的语义特征;
将剩余语义特征根据词频与逆文本频率指数进行权重排序,根据权重排序结果确定各所述语义特征的置信度。
7.根据权利要求1所述的方法,其特征在于,在所述根据标注后的各所述描述性语句生成结构化数据集合之后,还包括:
根据所述结构化数据集合,以及未标注的各所述描述性语句对初始目的特征确定网络模型进行训练,直到满足预设收敛条件获得目的特征确定网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国第一汽车股份有限公司,未经中国第一汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210077976.3/1.html,转载请声明来源钻瓜专利网。