[发明专利]停用词表生成方法、装置、电子设备及存储介质在审
申请号: | 202011307966.1 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112395408A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 李鹏宇;李剑锋 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/36 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;刘丽华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 停用 词表 生成 方法 装置 电子设备 存储 介质 | ||
本发明涉及人工智能,提供一种停用词表生成方法、装置、电子设备及存储介质。该方法能够确定生成请求的应用领域及搜索系统,划分预设停用词表,得到多个第一分表,利用搜索系统计算每个第一分表的初始分数,结合每个初始分数对每个第一分表进行觅食处理,得到多个第二分表,对每个第二分表进行聚群处理,得到多个第三分表,对每个第三分表进行追尾处理,得到多个第四分表,调整每个第四分表的初始向量,得到多个第四分表的变动向量,根据变动向量确定多个第五分表,计算并确定分表分数最高的第五分表为目标停用词表。本发明能够提高目标停用词表的生成效率及准确度。此外,本发明还涉及区块链技术,所述目标停用词表可存储于区块链中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种停用词表生成方法、装置、电子设备及存储介质。
背景技术
在信息检索系统中,停用词表可以压缩倒排索引的规模,提升检索系统的搜索精度,并通过缩小搜索空间来提升搜索速度。目前存在的停用词表一般针对通用领域,在特定领域中则不太适用,例如,某停用词表中包含的“背靠背”在体育新闻领域中用来表示赛程紧密,在体育新闻领域中属于相当重要的词汇。为了提高停用词表在某些特定领域的适用性,目前通常在开源停用词表的基础上采用人工方式进行增删操作,又或者采用统计方法找出信息量较低的词语组成新的停用词表,这两种方式都需要人工进行参与,由于每个人对特定领域的理解不同,造成生成的停用词表不统一,此外,这两种方式生成停用词表的效率很低,不利于信息检索系统的搜索。
发明内容
鉴于以上内容,有必要提供一种停用词表生成方法、装置、电子设备及存储介质,不仅能够避免数据泄露,从而提高数据安全性,还能够提高停用词表生成效率,从而提高查询服务性能。
一方面,本发明提出一种停用词表生成方法,所述停用词表生成方法包括:
接收停用词表的生成请求,并确定所述停用词表的应用领域以及与所述应用领域对应的搜索系统;
按照随机抽取方式对预设停用词表进行划分,得到多个第一分表;
利用所述搜索系统计算每个第一分表的初始分数,并结合每个初始分数对每个第一分表进行觅食处理,得到所述多个第一分表的多个第二分表;
对每个所述第二分表进行聚群处理,得到所述多个第二分表的多个第三分表;
对每个所述第三分表进行追尾处理,得到所述多个第三分表的多个第四分表;
获取每个所述第四分表的初始向量,并根据配置概率调整每个所述初始向量,得到所述多个第四分表的变动向量;
根据所述变动向量确定与所述多个第四分表对应的多个第五分表,并利用所述搜索系统计算所述多个第五分表的分表分数;
在所述多个第五分表中选取分表分数最高的第五分表作为所述目标停用词表。
根据本发明优选实施例,
所述确定所述停用词表的应用领域以及与所述应用领域对应的搜索系统包括:
解析所述生成请求的报文,得到所述生成请求携带的数据信息;
从配置标签库中获取预设标签,所述预设标签用于指示搜索语句;
从所述数据信息中获取与所述预设标签相匹配的信息作为待搜索语句;
提取所述待搜索语句中的名词,并利用所述名词遍历领域库中的领域;
将与所述名词匹配成功的领域确定为所述应用领域;
获取所述应用领域的领域标识,并将与所述领域标识对应的系统确定为所述搜索系统。
根据本发明优选实施例,
所述利用所述搜索系统计算每个第一分表的初始分数包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011307966.1/2.html,转载请声明来源钻瓜专利网。