[发明专利]语料分析方法、装置、电子设备和存储介质在审
申请号: | 202011025677.2 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112183089A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 郭程建 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 分析 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供一种语料分析方法、装置、电子设备和存储介质,通过获取用户在问题反馈过程中产生的交互语料,对交互语料进行自然语言处理,得到交互语料中用户方语料的原始分词集合,通过语料分析模型对原始分词集合中的分词进行处理,得到用户高频短语集合,根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合,实现了对用户在问题反馈过程中产生的交互语料中的隐藏信息的深度挖掘,提高了对舆情的分析的效率和分析准确率。
技术领域
本申请实施例涉及大数据技术领域,尤其涉及一种语料分析方法、装置、电子设备和存储介质。
背景技术
热线服务平台如热线电话、公众号等,作为广大用户反馈问题的重要途径之一,对于服务行业及政府部门提高服务质量来说至关重要。因此,对热线服务平台的语料进行分析,成为服务行业及政府部门及时掌握业务导向、用户普遍关注的问题和进行突发事件定位等舆情分析的重要手段。
现在技术中,通过设置平台工作人员专门负责热线服务平台的用户对接,并由平台工作人员将用户集中反映的问题进行汇总,将汇总结果反映给有关部门,以使有关部门进行舆情分析。
然而,现有技术的方法不仅造成人力物力的浪费,而且由于现有技术的方法受人为因素影响较大,且无法进行复杂的数据分析,因此,采用现有技术的方法进行舆情分析时存在效率和准确率不高的问题。
发明内容
本申请提供一种语料分析方法、装置、电子设备和存储介质,以解决现有技术中通过交互语料进行舆情分析时存在效率和准确率不高的问题。
第一方面,本申请实施例提供一种语料分析方法,包括:
获取用户在问题反馈过程中产生的交互语料;
对所述交互语料进行自然语言处理,得到所述交互语料中用户方语料的原始分词集合;
通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合;
根据预设时长内不同用户的用户高频短语集合,确定目标高频短语集合。
可选地,所述通过语料分析模型对所述原始分词集合中的分词进行处理,得到用户高频短语集合,包括:
根据所述原始分词集合中每个分词的出现次数,生成高频分词集合;
对所述高频分词集合中的高频分词进行组合,得到所述用户高频短语集合。
可选地,所述根据所述原始分词集合中每个分词的出现次数,生成高频分词集合,包括:
判断所述原始分词集合中每个分词的出现次数是否达到第一阈值;
提取出所述原始分词集合中出现次数达到所述第一阈值的分词,得到所述高频分词集合。
可选地,所述对所述高频分词集合中的高频分词进行组合,得到所述用户高频短语集合,包括:
根据所述高频分词集合中每个高频分词的词性,按目标自然语言的语法规则和语言习惯对所述高频分词进行组合,得到高频短语集合;
筛选出所述高频短语集合中满足业务特点的高频短语,作为所述用户高频短语集合。
可选地,所述对所述交互语料进行自然语言处理,得到所述交互语料中用户方语料的原始分词集合,包括:
通过自然语言第一处理模型对所述交互语料进行处理,得到所述交互语料中的用户方语料,所述自然语言第一处理模型包括语言转换技术和内容识别技术;
通过自然语言第二处理模型对所述用户方语料进行处理,得到所述用户方语料的原始分词集合,所述自然语言第二处理模型包括分词技术和关键词提取技术。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011025677.2/2.html,转载请声明来源钻瓜专利网。