[发明专利]会话切分方法、装置、电子设备和存储介质有效
申请号: | 202010853510.9 | 申请日: | 2020-08-24 |
公开(公告)号: | CN111708866B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 冯宇婷;刘琼琼;刘子韬 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;郭丽祥 |
地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 会话 切分 方法 装置 电子设备 存储 介质 | ||
本申请提出一种会话切分方法、装置、电子设备和存储介质,会话切分方法包括:获取目标会话中待处理的相邻消息;在相邻消息符合预设的切分条件的情况下,确定对相邻消息进行切分;在相邻消息符合预设的连贯条件的情况下,确定不对相邻消息进行切分;在相邻消息不符合切分条件且不符合连贯条件的情况下,根据会话切分模型,确定是否对相邻消息进行切分。本申请可以提高对会话进行切分的准确性。
技术领域
本申请涉及数据处理领域,尤其涉及一种会话切分方法、装置、电子设备和存储介质。
背景技术
随着智能终端和移动通信技术的发展,越来越多的用户使用电子设备进行收发消息,实现相互间的会话。利用电子设备进行会话,在生活信息互通共享、远程协同办公、团队日常管理等领域发挥的作用日渐凸显,可以帮助提升人们生活和工作上的沟通效率,也便于人们存储历史会话信息。
基于此,相关技术中,可以利用电子设备中的历史会话信息,获取人们需求的信息。为了获取特定信息,需要对会话进行切分,以便于对不同主题的会话进行分析和信息提取。然而,相关技术中,对会话进行切分的方式,存在切分不准确的问题。
发明内容
本申请实施例提供一种会话切分方法、装置、电子设备和存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种会话切分方法,包括:
获取目标会话中待处理的相邻消息;
在相邻消息符合预设的切分条件的情况下,确定对相邻消息进行切分;
在相邻消息符合预设的连贯条件的情况下,确定不对相邻消息进行切分;
在相邻消息不符合切分条件且不符合连贯条件的情况下,根据会话切分模型,确定是否对相邻消息进行切分。
在一种实施方式中,该方法还包括:
利用目标会话中符合切分条件的相邻消息和符合连贯条件的相邻消息,训练得到会话切分模型。
在一种实施方式中,利用目标会话中符合切分条件的相邻消息和符合连贯条件的相邻消息,训练得到会话切分模型,包括:
获取基于会话场景语料训练得到的初始模型;
利用目标会话中符合切分条件的相邻消息和符合连贯条件的相邻消息,训练初始模型,得到会话切分模型。
在一种实施方式中,利用目标会话中符合切分条件的相邻消息和符合连贯条件的相邻消息,训练得到会话切分模型,包括:
将目标会话中符合切分条件的相邻消息与相邻消息之前的至少一个消息进行连接,得到标注为切分的第一训练数据;
将目标会话中符合连贯条件的相邻消息与相邻消息之前的至少一个消息进行连接,得到标注为不切分的第二训练数据;
利用第一训练数据和第二训练数据,训练会话切分模型。
在一种实施方式中,切分条件包括以下多种条件中的至少一种:
相邻消息的发言者属于相同的角色,且相邻消息在不同日期发出;
相邻消息的发出时间间隔大于预设时长,且相邻消息中发出时间较晚的消息包括预设的开始语;
相邻消息在不同日期发出,且相邻消息中发出时间较早的消息包括预设的结束语;
相邻消息在不同日期发出,且相邻消息中发出时间较早的消息的类型为网页链接;
相邻消息中发出时间较晚的消息的类型为通知;
相邻消息中发出时间较晚的消息的类型为网页链接或数字,且相邻消息的发出时间间隔大于预设时长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010853510.9/2.html,转载请声明来源钻瓜专利网。