[发明专利]停用词表生成方法、装置、电子设备及存储介质在审
申请号: | 202011307966.1 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112395408A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 李鹏宇;李剑锋 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/36 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;刘丽华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 停用 词表 生成 方法 装置 电子设备 存储 介质 | ||
1.一种停用词表生成方法,其特征在于,所述停用词表生成方法包括:
接收停用词表的生成请求,并确定所述停用词表的应用领域以及与所述应用领域对应的搜索系统;
按照随机抽取方式对预设停用词表进行划分,得到多个第一分表;
利用所述搜索系统计算每个第一分表的初始分数,并结合每个初始分数对每个第一分表进行觅食处理,得到所述多个第一分表的多个第二分表;
对每个所述第二分表进行聚群处理,得到所述多个第二分表的多个第三分表;
对每个所述第三分表进行追尾处理,得到所述多个第三分表的多个第四分表;
获取每个所述第四分表的初始向量,并根据配置概率调整每个所述初始向量,得到所述多个第四分表的变动向量;
根据所述变动向量确定与所述多个第四分表对应的多个第五分表,并利用所述搜索系统计算所述多个第五分表的分表分数;
在所述多个第五分表中选取分表分数最高的第五分表作为所述目标停用词表。
2.如权利要求1所述的停用词表生成方法,其特征在于,所述确定所述停用词表的应用领域以及与所述应用领域对应的搜索系统包括:
解析所述生成请求的报文,得到所述生成请求携带的数据信息;
从配置标签库中获取预设标签,所述预设标签用于指示搜索语句;
从所述数据信息中获取与所述预设标签相匹配的信息作为待搜索语句;
提取所述待搜索语句中的名词,并利用所述名词遍历领域库中的领域;
将与所述名词匹配成功的领域确定为所述应用领域;
获取所述应用领域的领域标识,并将与所述领域标识对应的系统确定为所述搜索系统。
3.如权利要求2所述的停用词表生成方法,其特征在于,所述利用所述搜索系统计算每个第一分表的初始分数包括:
利用每个所述第一分表对所述待搜索语句进行过滤,得到搜索词;
将所述搜索词输入至所述搜索系统中,得到多个候选语句;
计算所述待搜索语句与每个候选语句的相似度,并计算所述相似度的平均值,得到每个所述第一分表的初始分数。
4.如权利要求1所述的停用词表生成方法,其特征在于,所述结合每个初始分数对每个第一分表进行觅食处理,得到所述多个第一分表的多个第二分表包括:
获取每个所述第一分表的第一分表向量,并根据预设概率对所述第一分表向量进行调整,得到翻转向量;
根据所述翻转向量及所述第一分表确定翻转分表,并利用所述搜索系统计算所述翻转分表的翻转分数;
将每个初始分数与每个翻转分数进行比较;
当所述初始分数大于或者等于所述翻转分数时,将所述初始分数对应的第一分表确定为所述第二分表;或者
当所述初始分数小于所述翻转分数时,将所述翻转分数对应的翻转分表确定为所述第二分表。
5.如权利要求4所述的停用词表生成方法,其特征在于,所述对每个所述第二分表进行聚群处理,得到所述多个第二分表的多个第三分表包括:
计算多个所述第二分表中任意两个第二分表的海明距离,得到多个海明距离;
统计所述多个海明距离中小于第一预设阈值的目标海明距离的数量,并检测所述目标海明距离的数量是否小于第二预设阈值;
当所述目标海明距离的数量小于所述第二预设阈值时,计算所述目标海明距离指向的目标第二分表的重心,得到所述目标第二分表重心向量;
获取每个所述目标第二分表的第二分表向量;
根据所述重心向量及所述预设概率对所述目标第二分表向量进行调整,得到所述多个第三分表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011307966.1/1.html,转载请声明来源钻瓜专利网。