[发明专利]一种车属性标注方法、设备及存储介质有效
申请号: | 202111523094.7 | 申请日: | 2021-12-13 |
公开(公告)号: | CN114372446B | 公开(公告)日: | 2023-02-17 |
发明(设计)人: | 董京 | 申请(专利权)人: | 北京爱上车科技有限公司 |
主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F16/335 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈;张爱 |
地址: | 100015 北京市朝阳区酒仙桥北路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 属性 标注 方法 设备 存储 介质 | ||
1.一种车属性标注方法,其特征在于,包括:
响应于车属性标注指令,确定多个待标注对象;
获取语料数据,所述语料数据中的每条语料标注有所覆盖的有语料对象;
从所述语料数据中抽取车属性关键词;
分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词;
从所述至少一个有语料对象中,为所述多个待标注对象中未被所述语料数据覆盖的至少一个无语料对象选择参考对象;
基于所述至少一个无语料对象各自对应的参考对象关联的车辆属性关键词,确定所述至少一个无语料对象各自对应的车属性关键词;
按照所述至少一个待标注对象各自对应的车属性关键词,对所述至少一个待标注对象进行车属性标注。
2.根据权利要求1所述的方法,其特征在于,所述获取语料数据,包括:
获取原始语料;
对所述原始语料进行扩增,以获得扩增后语料;
将所述扩增后语料混合至通用语料中,以产生所述语料数据。
3.根据权利要求2所述的方法,其特征在于,所述从所述语料数据中抽取车属性关键词,包括:
抽取所述语料数据中包含的常见词;
对所述常见词进行词过滤,以获得车属性关键词。
4.根据权利要求3所述的方法,其特征在于,所述对所述常见词进行词过滤,以获得车属性关键词,包括:
从所述常见词中选取未出现在所述原始语料中的待过滤词;
从所述待过滤词中剔除与车辆领域无关的无关词;
将所述常见词中出现在所述原始语料中的词和所述待过滤词经过过滤后剩余的词,作为所述车属性关键词。
5.根据权利要求2所述的方法,其特征在于,所述分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词,包括:
基于目标关键词,遍历所述原始语料,以确定与所述目标关键词匹配的至少一条目标语料;
将所述目标关键词分别关联至所述至少一条目标语料所对应的有语料对象下;
其中,所述目标关键词为所述车属性关键词中的任意一个。
6.根据权利要求2所述的方法,其特征在于,所述分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词,包括:
从所述原始语料中,确定与目标有语料对象对应的至少一条目标语料;
从所述车属性关键词中,查找与所述至少一条目标语料匹配的目标关键词;
将所述目标关键词关联至所述目标有语料对象下;
其中,所述目标有语料对象为所述至少一个有语料对象中的任意一个,所述目标关键词为所述车属性关键词中的任意一个。
7.根据权利要求5或6所述的方法,其特征在于,确定目标语料与目标关键词匹配的条件,包括:
目标语料中包含所述目标关键词;或者,
目标语料中包含与所述目标关键词存在扩增关系的其它车属性关键词。
8.根据权利要求2所述的方法,其特征在于,所述分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词,包括:
构建目标关键词对应的目标词向量;
分别计算所述目标词向量与所述原始语料中每条语料之间的向量距离;
从所述原始语料中,选择符合向量距离要求的至少一条目标语料;
将所述目标关键词分别关联至所述至少一条目标语料所对应的有语料对象下;
其中,所述目标关键词为所述车属性关键词中的任意一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱上车科技有限公司,未经北京爱上车科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111523094.7/1.html,转载请声明来源钻瓜专利网。