[发明专利]医美训练数据评价方法、装置、设备及存储介质在审
申请号: | 201911326170.8 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111177377A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 黄友福;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q10/06 |
代理公司: | 厦门原创专利事务所(普通合伙) 35101 | 代理人: | 高巍 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 数据 评价 方法 装置 设备 存储 介质 | ||
本发明公开了一种医美训练数据评价方法,该方法包括:获取已标注的训练数据集,其中所述训练数据集中的每条训练数据包括医美描述语句及所述医美描述语句对应的医美意图标签;从所述训练数据集中抽取待质检的第一数据集;获取第二数据集,所述第二数据集中标注的医美意图标签都是正确的;根据所述第一数据集和所述第二数据集确定第三数据集;对所述第三数据集进行聚类,得到聚类结果;根据所述聚类结果,确定所述第二数据集中医美意图标签的分类结果;根据所述第二数据集中医美意图标签的分类结果,确定所述第一数据集的质检结果。本发明能抽取小部分训练数据,就能准确评价训练数据的标注质量。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种医美训练数据评价方法、装置、设备及存储介质。
背景技术
在仿真营销机器人中,意图识别和项目识别是机器人做出回复的重要依据之一。机器人依据访客的项目和意图到知识库里抽取对应的话术进行回复。意图和项目识别的准确与否关系到机器人回答的准确性,直接影响到使用者的体验。尤其在医美领域,机器人涉及到的意图有数十种,识别错误的话会导致机器人话术调用错误,出现答非所问深圳机器人不回复的情况。意图识别需要基于大量高质量的标注数据来训练模型和矫正,因此标注数据的的质量决定了训练模型的准确度。
发明内容
本发明提供一种医美训练数据评价方法、装置、设备、及计算机可读存储介质,其主要目的在于实现了能抽取小部分训练数据,就能准确评价训练数据的标注质量。
为实现上述目的,本发明还提供一种医美训练数据评价方法,应用于电子设备,所述方法包括:
获取已标注的训练数据集,其中所述训练数据集中的每条训练数据包括医美描述语句及所述医美描述语句对应的医美意图标签;
从所述训练数据集中抽取待质检的第一数据集;
获取第二数据集,所述第二数据集中标注的医美意图标签都是正确的;
根据所述第一数据集和所述第二数据集确定第三数据集;
对所述第三数据集进行聚类,得到聚类结果;
根据所述聚类结果,确定所述第二数据集中医美意图标签的分类结果;
根据所述第二数据集中医美意图标签的分类结果,确定所述第一数据集的质检结果。
优选地,所述获取第二数据集包括:
从所述训练数据集中随机抽取部分训练数据;
接收对所述部分训练数据中错误的医美意图标签的纠正;
将纠正后的部分训练数据作为所述第二数据集。
优选地,所述对所述第三数据集进行聚类,得到聚类结果包括:
利用Glove技术将所述第三数据集转换为向量集合,其中向量集合中的向量表示单词之间的语义特性;
将所述向量集合中的向量作为层次聚类算法的输入,聚类后得到所述聚类结果。
优选地,所述根据所述第二数据集中医美意图标签的分类结果,确定所述第一数据集的质检结果包括:
根据所述第二数据集中医美意图标签的分类结果,获取所述第二数据集中同类别的医美意图标签分配到同一类别的比例;
在所述第二数据集中同类别的医美意图标签分配到同一类别的比例大于或者等于比例阈值时,确定所述第一数据集的质检结果合格;
在所述第二数据集中同类别的医美意图标签分配到同一类别的比例小于比例阈值时,确定所述第一数据集的质检结果不合格。
优选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911326170.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置