[发明专利]投诉文本类别的预测方法、系统、设备和存储介质有效
申请号: | 201910650261.0 | 申请日: | 2019-07-18 |
公开(公告)号: | CN110347840B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 杨森;罗超;胡泓 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q30/0202;G06Q50/12;G06Q50/14 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 投诉 文本 类别 预测 方法 系统 设备 存储 介质 | ||
1.一种OTA平台的投诉文本类别的预测方法,其特征在于,所述预测方法包括:
获取OTA平台在历史设定时间段内对应的历史投诉文本数据;
其中,采用随机采样的方式对所述历史投诉文本数据进行数据筛选,以使得所述历史投诉文本数据同分布;
对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别;
获取所述OTA平台中与所述历史投诉文本数据对应的历史维度数据和历史实体数据;
其中,所述历史维度数据为用于表征用户、订单和/或酒店的多维度数据;
所述历史实体数据为用于表征酒店领域的专有名词的数据;
以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型;
获取目标投诉文本数据;
将所述目标投诉文本数据输入所述预测模型,获取所述目标投诉文本数据属于每种投诉类别的概率值;
根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别;
所述获取OTA平台在历史设定时间段内对应的历史投诉文本数据的步骤之前还包括:
采用BERT算法对所述历史投诉文本数据进行预训练获取语言模型;
所述以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型的步骤包括:
采用BERT算法以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,基于所述语言模型,训练时通过随机掩盖部分所述实体数据的方式来建立用于预测投诉文本数据所属的投诉类别的所述预测模型。
2.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述获取OTA平台在历史设定时间段内对应的历史投诉文本数据的步骤之后、对所述历史投诉文本数据进行标注处理的步骤之前还包括:
采用聚类算法对所述历史投诉文本数据进行聚类处理;
所述对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别的步骤包括:
将属于同一聚类结果的所述历史投诉文本数据标注为同一所述投诉类别。
3.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型的步骤之前还包括:
对标注处理后的所述历史投诉文本数据进行预处理。
4.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别的步骤包括:
确定所述概率值最大时对应的投诉类别为所述目标投诉文本数据所属的所述目标投诉类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910650261.0/1.html,转载请声明来源钻瓜专利网。