[发明专利]文本处理方法、装置、服务器及存储介质在审
申请号: | 201910868745.2 | 申请日: | 2019-09-16 |
公开(公告)号: | CN112507088A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 彭莉;王程乘;庄思待;瞿晓婷;段成武;王伟;胡奉平;范思秀;朱晓慧;胡文芳 | 申请(专利权)人: | 顺丰科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518000 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 服务器 存储 介质 | ||
本申请实施例公开了一种文本处理方法、装置、服务器及存储介质,本申请实施例可以获取待处理的文本,当所述文本的类型为主观类型时,按照预设策略对所述文本进行分词,得到组成所述文本的词语;根据所述词语计算所述文本与语料库中每一条语料之间的表层相似度;计算表层相似度大于预设阈值的语料,与所述文本之间的信息熵相似度;筛选出信息熵相似度最高的语料。该方案可以计算文本与语料之间的表层相似度,通过表层相似度可以实现对语料进行初筛,以及计算表层相似度大于预设阈值的语料与文本之间的信息熵相似度,筛选出信息熵相似度最高的语料,提高了文本处理的效率和精准性。
技术领域
本申请涉及数据处理技术领域,具体涉及一种文本处理方法、装置、服务器及存储介质。
背景技术
随着科技的发展,很多行业都具备售前和售后的服务,例如快递行业的预约、查单、缴费、投诉等多方位服务,而由于人工客服无法24小时在线,以及人工效率低和成本高等,永远在线的智能客服终端应运而生。
目前,智能客服终端回答问题一般是先分析问题的语义信息,根据语义信息从本地语料库的语料内容查找相关的回答,而简单的语义匹配,使得有些问题无法从语料库得到,或者查找的回答与问题之间的相关性较低,即精准性较低,因此智能客服终端提供的答案不能完全满足用户需求。而且,需要花费大量的时间进行语义匹配,导致智能客服终端的回复存在较明显的滞后性。
发明内容
本申请实施例提供一种文本处理方法、装置、服务器及存储介质,可以提高文本处理的效率和精准性。
第一方面,本申请实施例提供了一种文本处理方法,包括:
获取待处理的文本;
当所述文本的类型为主观类型时,按照预设策略对所述文本进行分词,得到组成所述文本的词语;
根据所述词语计算所述文本与语料库中每一条语料之间的表层相似度;
计算表层相似度大于预设阈值的语料,与所述文本之间的信息熵相似度;
筛选出信息熵相似度最高的语料。
在一些实施方式中,所述计算表层相似度大于预设阈值的语料,与所述文本之间的信息熵相似度包括:
从所述词语中提取出关键词;
筛选出表层相似度大于预设阈值的语料,得到目标语料;
计算所述关键词与所述目标语料之间的词信息熵;
根据所述词信息熵计算所述目标语料与所述文本之间的信息熵相似度。
在一些实施方式中,所述计算所述关键词与所述目标语料之间的词信息熵包括:
获取所述语料库中语料的总数;
确定所述语料库中出现所述关键词的语料的数量;
根据所述总数和数量计算所述关键词与所述目标语料之间的词信息熵。
在一些实施方式中,所述根据所述词语计算所述文本与语料库中每一条语料之间的表层相似度包括:
从所述词语中提取出关键词;
获取语料库的每条语料中包含的词语与所述关键词相同的个数,得到第一数值;
获取分词得到的组成所述文本的所述词语的个数,以及对每条语料分词得到的词语的个数,得到第二数值;
根据所述第一数值和所述第二数值计算所述文本与语料库中每一条语料之间的表层相似度。
在一些实施方式中,所述筛选出信息熵相似度最高的语料包括:
根据信息熵相似度对所述语料进行评分,得到所述语料对应的分值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910868745.2/2.html,转载请声明来源钻瓜专利网。