[发明专利]一种基于在线会话标注的模型训练方法及装置有效
申请号: | 202110978287.5 | 申请日: | 2021-08-25 |
公开(公告)号: | CN113434689B | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 吴赢时;吴明辉;杨威;刘元凯;李劼 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06N3/04 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 裴素英 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 在线 会话 标注 模型 训练 方法 装置 | ||
本申请提供了一种基于在线会话标注的模型训练方法及装置,获取目标通信应用在线会话中的当前的会话消息;获取当前的会话消息中包括关键提取内容的目标会话消息;根据关键提取内容的定义对目标会话消息添加第一标识;根据初始的会话标注模型,得到被标识有第二标识的当前的会话消息;根据使用标识有第一标识的目标会话消息与标识有第二标识的会话消息进行一致性比对的结果,筛选出用于迭代训练初始的会话标注模型的正负训练样本并进行训练,得到最终的会话标注模型。这样,本申请通过识别在线会话消息的关键提取内容进行标识标注,并将标注后的会话消息自动转机器学习训练,从而可以训练得到准确率较高的会话标注模型以及缩短模型训练周期。
技术领域
本申请涉及人工智能技术领域,尤其是涉及一种基于在线会话标注的模型训练方法及装置。
背景技术
AI算法构建的主要流程包括数据采集标注、模型学习训练、部署应用、迭代优化等。其中数据采集标注是指完成数据收集,并对数据进行筛选、标注、分类的过程。模型训练学习是根据已知标识好的数据寻找模型参数的过程。
现有技术主要采用在线会话生产、离线标注训练的模式。当没有算法模型的时候,由标注团队(人员)先采样部分生产会话数据样本,然后将样本分发给相应的标注人员开展标注工作。标注人员根据自己对会话内容的理解,完成相应会话数据标注,并将标注后的数据用于模型训练,再将训练优化好的算法模型应用于生产系统。但是这种标注方法存在以下缺点:(一)、数据采集、数据标注、算法训练、模型生成、应用于生产系统整体周期较长,算法模型迭代优化周期较长。(二)、标注人员一般不是会话实际参与者,无法达到对会话语境的准确理解,导致准确性较低,标准性较差。
发明内容
有鉴于此,本申请的目的在于提供一种基于在线会话标注的模型训练方法及装置,通过识别在线标注过的会话消息中的关键提取内容,得到带有标识的目标会话消息,再通过与初始的会话标注模型得到的会话消息进行比对,得到训练所述初始的会话标注模型的正负训练样本,从而可以训练得到准确率较高的会话标注模型,进而可以缩短模型训练周期。
本申请实施例提供了一种基于在线会话标注的模型训练方法,所述模型训练方法包括:
获取目标通信应用在线会话中的当前的会话消息;
获取所述当前的会话消息中包括关键提取内容的目标会话消息;所述关键提取内容表征包括含有预设关键词、预设关键语句和预设符号中至少一个的内容;
根据所述关键提取内容的定义对所述目标会话消息进行标识,得到被标识有第一标识的目标会话消息;
将所述当前的会话消息输入初始的会话标注模型,得到被标识有第二标识的所述当前的会话消息;
根据使用标识有第一标识的目标会话消息与标识有第二标识的会话消息进行一致性比对的结果,筛选出用于训练所述初始的会话标注模型的正负训练样本;所述一致性比对包括文本一致性比对和/或标识一致性比对;
使用所述正负训练样本对所述初始的会话标注模型进行迭代训练,更新所述初始的会话标注模型,以得到最终的会话标注模型。
可选的,所述获取所述会话消息中包括关键提取内容的目标会话消息,包括:
使用预定提取策略从所述会话消息中提取包括关键提取内容的目标会话消息;所述预定提取策略包括以下项中的任意一项:提取所述会话消息中包括的特定消息和特定消息的回复以及两者之间的所有会话消息的策略;提取所述会话消息中包括的特定消息和特定消息的回复以及两者之间的部分指定会话消息的策略;仅提取所述会话消息中的特定消息和特定消息的回复信息的策略。
可选的,通过以下步骤构建所述初始的会话标注模型:
获取目标通信应用在线会话中的历史的会话消息;
获取所述历史的会话消息中包括关键提取内容的所述历史的目标会话消息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110978287.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:加固软件部署方法、装置、电子设备及存储介质
- 下一篇:一种防结霜低温面源黑体