[发明专利]一种数据处理方法、装置、设备有效
申请号: | 202010761316.8 | 申请日: | 2020-07-31 |
公开(公告)号: | CN112036906B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 王岗 | 申请(专利权)人: | 苏宁金融科技(南京)有限公司 |
主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06F16/332;G06F16/33;G06F40/289 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 张慧娟 |
地址: | 211800 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
用户服务端将接收到的用户提出的问题发送至云端,接收由所述云端发送的对所述用户提出的问题进行预处理后得到的分词文本以及基于预设的通用知识库对所述分词文本进行识别后得到的第一问答对集;
将所述分词文本与预设的本地知识库进行匹配,得到第二问答对集,将所述第一问答对集、第二问答对集进行合并,计算所述分词文本和合并后的问答对集中的问题的相似度;
将计算得到的相似度与预设的相似度阈值进行比较,确定与比较结果相匹配的问答对,将确定的问答对中的答案发送至应用服务端并由所述应用服务端发送至对应的客户端以进行展示。
2.根据权利要求1所述的方法,其特征在于,所述云端基于预设的通用知识库对所述分词文本进行识别得到第一问答对集具体包括:
所述云端对所述分词文本的文本长度进行判断;
当所述分词文本的文本长度小于第一预设值时,将所述分词文本转化成词向量,将转换得到的词向量输入至预先训练好的第一识别模型中,得到关于所述用户提出的问题的分类结果;
当所述分类结果与预设的类别相同时,将所述转换得到的词向量输入至预设的第二识别模型中,得到与所述用户提出的问题相匹配的在所述分类结果下的所述第一问答对集;其中,所述第一识别模型、第二识别模型根据预设的语料库以及所述通用知识库训练得到;
当所述分词文本的文本长度大于等于第一预设值时,在所述通用知识库中全量搜索与所述分词文本相匹配的问答对,将匹配得到的问答对确定为所述第一问答对集。
3.根据权利要求2所述的方法,其特征在于,所述第一识别模型、第二识别模型的获取方法包括:
对所述通用知识库中的所有问答对进行分类处理,得到与每一类别相对应的问答对;
基于预设的语料库,建立样本库;其中,所述样本库为关于日常客服问答对的集合;
基于分类后得到的所有类别对所述样本库中的所有问题进行标注,同时基于分类后的问答对确定与所述样本库中每一个问题相匹配的问答对;
根据标注后的所述样本库中的所有问题训练第一基础模型,得到所述第一识别模型;
根据所述样本库中的所有问题以及与每一个问题相匹配的分类后的问答对训练第二基础模型,得到所述第二识别模型。
4.根据权利要求1所述的方法,其特征在于,所述云端对所述用户提出的问题进行预处理得到分词文本具体包括:
所述云端基于预设的字典树对所述用户提出的问题进行分词处理,得到分词结果;
对所述分词结果进行判断,当所述分词结果满足预设的判断条件时,对所述分词结果进行纠错并提取关键词,得到所述分词文本。
5.根据权利要求4所述的方法,其特征在于,所述云端基于预设的字典树对所述用户提出的问题进行分词处理之前还包括:
所述云端基于预设的降噪模型对所述用户提出的问题进行清洗。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
按照预设的更新周期对所述字典树进行更新,具体包括:
对更新周期前的所有语料进行分词,得到候选新词集合;
利用互信息和左右熵对候选新词集合中的所有候选新词进行过滤;
将过滤后得到的候选新词与所述字典树进行对比以确定目标新词;
基于所述目标新词对所述字典树进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁金融科技(南京)有限公司,未经苏宁金融科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010761316.8/1.html,转载请声明来源钻瓜专利网。