[发明专利]语料标签生成方法、装置、计算机设备和存储介质有效
申请号: | 202110270401.9 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113095073B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 周炬;邵俊 | 申请(专利权)人: | 深圳索信达数据技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/216;G06F40/211;G06F40/30;G06F16/23;G06K9/62 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 杨欢 |
地址: | 518051 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 标签 生成 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种语料标签生成方法、装置、计算机设备和存储介质。方法包括:基于当前实体词汇表,对每一个语料样本进行分词处理,获取对应的多个词元素;统计每个词元素出现的次数,得到对应的词语频次;将词语频次处于预设的词语频次区间的词元素标记为实体词汇,更新当前实体词汇表;根据更新后的实体词汇表,对每一个语料样本再次分别进行分词处理,确定每个语料样本对应的语料关键词;对语料关键词进行聚类分析,根据聚类分析结果得到至少一个语料类别;对于每个语料类别,分别计算相应语料类别中的语料关键词的特征值,并将特征值满足条件的语料关键词作为相应语料类别的语料标签。采用本方法能够方便快捷且准确地生成语料标签。
技术领域
本申请涉及智能机器人技术领域,特别是涉及一种语料标签生成方法、装置、计算机设备和存储介质。
背景技术
随着AI(Artificial Intelligence,人工智能)技术的发展,聊天机器人技术已经深入应用到各种商业领域。目前,聊天机器人主要被用在很多售后或者营销环节,用来自动回答用户咨询的问题,办理常规任务。它的工作流程主要是根据用户的输入信息,识别用户的真实意图,然后根据意图去执行相应的任务流程。例如,用户a在某银行聊天机器人中问到如何修改银行卡交易密码?机器人会先识别问题的真实意图属于银行卡密码修改,接下来会激活密码修改流程:输入卡号---确认身份---输入原有密码----输入新密码---确认提交----修改成功。
为了提高让聊天机器人识别用户的真实意图的准确度,需要给用户问题打上意图标签。目前的做法更多地是依靠人工去对用户问题进行理解和意图标注,在面对各种用户问题的时候,需要分配较多人力、较多时间去对每一个问题所属的类别进行人工识别,然后对这个问题进行相应的标签标注,存在标签标注效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够方便快捷且准确地生成语料标签的语料标签生成方法、装置、计算机设备和存储介质。
一种语料标签生成方法,其特征在于,所述方法包括:
基于当前实体词汇表,对语料样本集合中的每一个语料样本分别进行分词处理,获取与所述语料样本集合对应的多个词元素;
统计每个词元素在所述语料样本集合中出现的次数,得到每个词元素对应的词语频次;
将词语频次处于预设的词语频次区间的词元素标记为实体词汇,并基于具有实体词汇标记的词元素更新所述当前实体词汇表;
根据更新后的实体词汇表,对所述语料样本集合中的每一个语料样本再次分别进行分词处理,并根据每个语料样本中所包含的词语数量,确定每个语料样本对应的语料关键词;
对与所述语料样本集合相对应的语料关键词进行聚类分析,根据聚类分析结果对多个语料关键词进行分类,得到与所述语料样本集合对应的至少一个语料类别;
对于每个语料类别,分别计算相应语料类别中的语料关键词的特征值,并将特征值满足条件的语料关键词作为相应语料类别的语料标签。
在其中一个实施例中,所述方法还包括:接收新增语料样本,分别计算所述新增语料样本属于所述至少一个语料类别中的每一类的标签概率;
将各标签概率分别与预设的标签概率阈值进行比较,当存在满足预设的标签概率条件的标签概率时,将满足条件的标签概率所属语料类别对应的语料标签,赋予所述新增语料样本;
当不存在满足预设的标签概率条件的标签概率时,将所述新增语料样本存入新增语料样本集合,且当所述新增样本集合达到预设条件时,通过所述新增样本集合对所述语料样本集合进行更新,并基于更新后的语料样本集合重新进行语料标签生成。
在其中一个实施例中,根据每个语料样本中所包含的词语数量,确定每个语料样本对应的语料关键词之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳索信达数据技术有限公司,未经深圳索信达数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110270401.9/2.html,转载请声明来源钻瓜专利网。