[发明专利]一种面向人机交互多轮对话语料的加速标注方法及装置有效
申请号: | 201911212568.9 | 申请日: | 2019-12-02 |
公开(公告)号: | CN111178062B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 王星光;陈峰 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/247;G06F16/335;G06F18/22 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 人机交互 轮对 话语 加速 标注 方法 装置 | ||
本发明公开了一种面向人机交互多轮对话语料的加速标注方法及装置,该方法包括:获取待标注用户话语及所述待标注用户话语的上下文;对待标注用户话语与会话行为进行字面相似度计算,以得到第一字面相似度得分;对待标注用户话语与会话行为进行语义相似度计算,以得到第一语义相似度得分;对待标注用户话语的上下文与会话行为进行字面相似度计算,以得到第二字面相似度得分;对待标注用户话语的上下文与会话行为进行语义相似度计算,以得到第二语义相似度得分;根据第一字面相似度得分、第一语义相似度得分、第二字面相似度得分及第二语义相似度得分,确定候选推荐标注。通过本发明的技术方案,不仅减少标注产生的错误,而且加快标注速度。
技术领域
本发明涉及计算机及信息服务技术领域,特别涉及一种面向人机交互多轮对话语料的加速标注方法及装置。
背景技术
在智能客服、儿童早教机等人机交互应用场景领域,系统日志中存在大量的多轮对话语料。对话语料中的会话行为(Dialog Act,DA)的识别,对理解用户真实意图起着关键作用。会话行为描述了用户话语(user utterance)在会话过程中的语义、交际等交互作用。传统的语料加工方式采用人工标注,即人工将用户话语标注成预定义好的会话行为,从而驱动机器学习技术学习到用户话语的真实意图。
人工标注存在的问题:一方面,多轮对话语料中的会话行为种类较多;另一方面,用户话语的真实意图往往需要依赖上下文加以明确;这两方面的问题,使得标注员在标注多轮对话语料时不仅费事费力,而且容易导致标注错误。
发明内容
本发明提供一种面向人机交互多轮对话语料的加速标注方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供了一种面向人机交互多轮对话语料的加速标注方法,包括:
获取待标注用户话语及所述待标注用户话语的上下文;
对所述待标注用户话语与会话行为进行字面相似度计算,以得到第一字面相似度得分;
对所述待标注用户话语与所述会话行为进行语义相似度计算,以得到第一语义相似度得分;
对所述待标注用户话语的上下文与所述会话行为进行字面相似度计算,以得到第二字面相似度得分;
对所述待标注用户话语的上下文与所述会话行为进行语义相似度计算,以得到第二语义相似度得分;
根据所述第一字面相似度得分、第一语义相似度得分、第二字面相似度得分及所述第二语义相似度得分,确定候选推荐标注。
在一个实施例中,所述对所述待标注用户话语与会话行为进行字面相似度计算,以得到第一字面相似度得分,包括:
对所述待标注用户话语进行分词,以获取第一n-gram信息;
根据所述第一n-gram信息确定第一查询词表征;
获取语料中已标注的用户话语;
通过第一预设模型对所述已标注的用户话语进行检索,以得到与所述待标注用户话语相似度最高的预设数目个已标注的用户话语及第一相似度;
通过第一预设算法对所述第一相似度进行计算,以得到所述第一字面相似度得分。
在一个实施例中,所述对所述待标注用户话语与所述会话行为进行语义相似度计算,以得到第一语义相似度得分,包括:
通过预训练的无监督语言模型对所述待标注用户话语进行计算,以得到第一句子语义向量;
获取语料中所述会话行为的第一预设句子语义向量;
通过第二预设算法对所述第一预设句子语义向量与所述第一句子语义向量进行计算,以得到所述第一语义相似度得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911212568.9/2.html,转载请声明来源钻瓜专利网。