[发明专利]投诉预测方法及其模型建立方法、装置以及相关设备在审
申请号: | 202210107767.9 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114676247A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 王子奕;鞠剑勋;李健 | 申请(专利权)人: | 上海携旅信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06Q30/02;G06Q50/14 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 潘一诺 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 投诉 预测 方法 及其 模型 建立 装置 以及 相关 设备 | ||
本发明提供一种投诉预测方法及其模型建立方法、装置以及相关设备,方法包括:设置投诉预测模型的预测的标签集合;获取历史客服对话文本以及历史客服对话文本的标签;使用LTP语言处理工具对历史客服对话文本进行分词;使用BERT分词器生成字令牌id序列、字位置id序列、字片段id序列以及字掩码序列;输入模型编码层,获得字特征序列;获得词特征序列;将词特征序列输入至语法层的图神经网络,以感知语法特征;输出历史客服对话文本的句子表示;对句子表示执行仿射变换以及归一化处理,获得标签概率分布;将句子表示输入至标签混淆层,计算伪标签概率分布;计算损失函数;迭代训练投诉预测模型。本发明实现线上旅行社的投诉预测。
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种投诉预测方法及其模型建立方法、装置以及相关设备。
背景技术
随着深度学习相关技术的飞速发展,神经网络模型在自然语言处理 (NaturalLanguage Processing,NLP)领域的地位愈发重要。相较于传统的朴素贝叶斯、支持向量机、N-gram等机器学习算法,神经网络在自动提取特征构建高层抽象方面的巨大优势使之能有效克服手动特征工程耗时费力、依赖专家经验的局限。
识别线上旅行社行业中的客户投诉内容,是文本分类在旅游场景下的一个主要应用方向,该任务难点在于:
1.中文存在大量同义词、一词多义现象,加上用户在即时通信(Instant Message,IM)表达中的非正式性、模糊性和多样性,都给分类带来了很大挑战;
2.标注数据量通常较少,标注成本高,难以学习出一个泛化能力足够强的分类器;
3.各预警标签之间的界限不一定十分清晰,有些内容按照语义甚至可划分至多个类别,标注噪声严重。
与计算机视觉(Computer Vision,CV)相比,尽管NLP领域的有监督数据集往往很小,导致深度学习模型容易过拟合,但NLP领域的优势在于,存在大量无监督语料,如果能够充分利用这类数据进行非监督、自监督学习,那么就有提升模型在下游任务表现的可能,这便是预训练语言模型产生的动机。自2018年Google提出的BERT模型刷新各项自然语言理解任务的SOTA 起,预训练语言模型的研究迎来了热潮。BERT以Transformer编码器作为主要结构,通过多头自注意力机制的并行计算替代了循环神经网络(Recurrent NeuralNetworks,RNNs)在序列处理上的地位,为编码文本表征提供了新范式。
BERT采用的WordPiece分词算法应用到中文文本处理时,通常只将句子简单转换为字符序列,这种做法忽视了词级信息以及能独立作为句子成分的汉语单词间的依存关系。此外,由于到标签one-hot编码方式假设过强,忽视了标签之间的相互重叠关系,容易丢失标签包含的大量语义信息,造成模型无法处理标签混淆或有噪声的情况。
由此,如何能够捕获词级联系,同时避免丢失标签包含的大量语义信息,造成模型无法处理标签混淆或有噪声的情况,从而实现线上旅行社的投诉预测,是本领域亟待解决的技术问题。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种投诉预测方法及其模型建立方法、装置以及相关设备,能够捕获词级联系,同时避免丢失标签包含的大量语义信息,造成模型无法处理标签混淆或有噪声的情况,从而实现线上旅行社的投诉预测。
根据本发明的一个方面,提供一种投诉预测模型建立方法,包括:
设置所述投诉预测模型的预测的标签集合;
获取历史客服对话文本以及历史客服对话文本的标签;
使用LTP语言处理工具对所述历史客服对话文本进行分词,生成词掩码序列以及句法依存关系图;
使用BERT分词器基于所述历史客服对话文本,生成字令牌id序列、字位置id序列、字片段id序列以及字掩码序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携旅信息技术有限公司,未经上海携旅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210107767.9/2.html,转载请声明来源钻瓜专利网。