[发明专利]文本处理方法、装置、服务器及存储介质在审
申请号: | 201910868745.2 | 申请日: | 2019-09-16 |
公开(公告)号: | CN112507088A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 彭莉;王程乘;庄思待;瞿晓婷;段成武;王伟;胡奉平;范思秀;朱晓慧;胡文芳 | 申请(专利权)人: | 顺丰科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518000 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 服务器 存储 介质 | ||
1.一种文本处理方法,其特征在于,包括:
获取待处理的文本;
当所述文本的类型为主观类型时,按照预设策略对所述文本进行分词,得到组成所述文本的词语;
根据所述词语计算所述文本与语料库中每一条语料之间的表层相似度;
计算表层相似度大于预设阈值的语料,与所述文本之间的信息熵相似度;
筛选出信息熵相似度最高的语料。
2.根据权利要求1所述的文本处理方法,其特征在于,所述计算表层相似度大于预设阈值的语料,与所述文本之间的信息熵相似度包括:
从所述词语中提取出关键词;
筛选出表层相似度大于预设阈值的语料,得到目标语料;
计算所述关键词与所述目标语料之间的词信息熵;
根据所述词信息熵计算所述目标语料与所述文本之间的信息熵相似度。
3.根据权利要求2所述的文本处理方法,其特征在于,所述计算所述关键词与所述目标语料之间的词信息熵包括:
获取所述语料库中语料的总数;
确定所述语料库中出现所述关键词的语料的数量;
根据所述总数和数量计算所述关键词与所述目标语料之间的词信息熵。
4.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述词语计算所述文本与语料库中每一条语料之间的表层相似度包括:
从所述词语中提取出关键词;
获取语料库的每条语料中包含的词语与所述关键词相同的个数,得到第一数值;
获取分词得到的组成所述文本的所述词语的个数,以及对每条语料分词得到的词语的个数,得到第二数值;
根据所述第一数值和所述第二数值计算所述文本与语料库中每一条语料之间的表层相似度。
5.根据权利要求1所述的文本处理方法,其特征在于,所述筛选出信息熵相似度最高的语料包括:
根据信息熵相似度对所述语料进行评分,得到所述语料对应的分值;
对所述语料按照分值从高至低的顺序进行排序,得到排序后的语料;
从排序后的语料中筛选出分值最高的语料,得到信息熵相似度最高的语料。
6.根据权利要求1至5任一项所述的文本处理方法,其特征在于,所述根据所述特征信息确定所述文本的类型之后,所述方法还包括:
当所述文本的类型为客观类型时,获取所述文本中包含的运算参数;
根据所述运算参数通过预设算法计算相应的结果。
7.根据权利要求6所述的文本处理方法,其特征在于,所述运算参数包括待运输物品需要运输的起始地址、终止地址和待运输物品的重量,所述预设算法包括运费算法,所述根据所述运算参数通过预设算法计算相应的结果包括:
根据所述起始地址、终止地址和待运输物品的重量,通过所述运费算法计算相应的运费结果;
或者,所述运算参数包括当前日期以及偏移量,所述根据所述运算参数通过预设算法计算相应的结果包括:根据所述当前日期以及偏移量通过预设算法计算相应的日期结果。
8.一种文本处理装置,其特征在于,包括:
接收模块,用于获取待处理的文本;
分词模块,用于当所述文本的类型为主观类型时,按照预设策略对所述文本进行分词,得到组成所述文本的词语;
第一计算模块,用于根据所述词语计算所述文本与语料库中每一条语料之间的表层相似度;
第二计算模块,用于计算表层相似度大于预设阈值的语料,与所述文本之间的信息熵相似度;
反馈模块,用于筛选出信息熵相似度最高的语料。
9.一种服务器,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的文本处理方法。
10.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行权利要求1至7任一项所述的文本处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910868745.2/1.html,转载请声明来源钻瓜专利网。