[发明专利]语料分析方法、装置、电子设备和存储介质在审
申请号: | 202011025677.2 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112183089A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 郭程建 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 分析 方法 装置 电子设备 存储 介质 | ||
1.一种语料分析方法,其特征在于,包括:
获取用户在问题反馈过程中产生的交互语料;
对所述交互语料进行自然语言处理,得到所述交互语料中用户方语料的原始分词集合;
通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合;
根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合。
2.根据权利要求1所述的方法,其特征在于,所述通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合,包括:
根据所述原始分词集合中每个分词的出现次数,生成高频分词集合;
对所述高频分词集合中的高频分词进行组合,得到所述用户高频短语集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述原始分词集合中每个分词的出现次数,生成高频分词集合,包括:
判断所述原始分词集合中每个分词的出现次数是否达到第一阈值;
提取出所述原始分词集合中出现次数达到所述第一阈值的分词,得到所述高频分词集合。
4.根据权利要求2所述的方法,其特征在于,所述对所述高频分词集合中的高频分词进行组合,得到所述用户高频短语集合,包括:
根据所述高频分词集合中每个高频分词的词性,按目标自然语言的语法规则和语言习惯对所述高频分词进行组合,得到高频短语集合;
筛选出所述高频短语集合中满足业务特点的高频短语,作为所述用户高频短语集合。
5.根据权利要求1所述的方法,其特征在于,所述对所述交互语料进行自然语言处理,得到所述交互语料中用户方语料的原始分词集合,包括:
通过自然语言第一处理模型对所述交互语料进行处理,得到所述交互语料中的用户方语料,所述自然语言第一处理模型包括语言转换技术和内容识别技术;
通过自然语言第二处理模型对所述用户方语料进行处理,得到所述用户方语料的原始分词集合,所述自然语言第二处理模型包括分词技术和关键词提取技术。
6.根据权利要求5所述的方法,其特征在于,所述通过自然语言第一处理模型对所述交互语料进行处理,得到所述交互语料中的用户方语料,包括:
通过所述语言转换技术,将所述交互语料的语言转换成目标自然语言,得到标准格式的交互语料;
通过所述内容识别技术对所述标准格式的交互语料的内容进行识别,区分出所述交互语料中的用户方语料和非用户方语料;
提取出所述交互语料中的用户方语料,并进行存储。
7.根据权利要求5所述的方法,其特征在于,所述通过自然语言第二处理模型对所述用户方语料进行处理,得到所述用户方语料的原始分词集合,包括:
根据分词技术,对所述用户方语料进行切分,得到分词格式的用户方语料;
根据关键词提取技术,将所述分词格式的用户方语料中的实词作为关键词提取出来,得到所述用户方语料的原始分词集合。
8.根据权利要求1任一项所述的方法,其特征在于,所述根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合包括:
对预设时长内不同用户在问题反馈过程中产生的用户高频短语集合中的用户高频短语进行统计,得到每个用户高频短语的累计出现次数;
将累计出现次数达到第二阈值的用户高频短语提取出来,得到所述目标高频短语集合。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合之前,所述方法还包括:
获取历史交互语料;
对所述历史交互语料进行自然语言处理,得到所述历史交互语料中用户方语料的原始分词集合;
对所述历史交互语料中用户方语料的原始分词集合中分词进行统计和分析,确定所述语料分析模型的第一阈值和业务特点中的至少一项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011025677.2/1.html,转载请声明来源钻瓜专利网。