[发明专利]搜索关键字频度解析方法、装置、电子设备及介质有效
申请号: | 201610158328.5 | 申请日: | 2016-03-18 |
公开(公告)号: | CN107203570B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 兰华勇 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 11021 中科专利商标代理有限责任公司 | 代理人: | 曹玲柱 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 关键字 频度 解析 方法 装置 | ||
1.一种搜索关键字频度解析方法,其特征在于,包括:
步骤A:提取搜索关键词记录,对其进行分词、清洗,得到目标词条,多条的目标词条构成目标词库;
步骤B:去除目标词库中对语义权重贡献较小的弱相关词条;
步骤C:对目标词库中的目标词条进行近义词或同义词的替换;
步骤D:采用特征-对象矩阵将高维空间映射到低维的潜在语义结构上所构建出的LSA空间模型,结合汉明码计算词条特征向量之间的距离,聚合特征向量距离等同或相近的特征向量对应的词条,生成词条组;
步骤E:对聚合后的每一个词条组,根据预设半径参数确定词条聚合分布的区域,在该范围内采用K近邻算法对聚合的词条进行分类;以及
步骤F:基于分类结果与目标词库中每个词条的搜索次数进行频度解析,其中,归结为一类的词条的搜索次数作为整体进行频度解析;
其中,所述步骤D包括:
子步骤D1:由目标词库中的词条构建二维的特征-对象矩阵,该特征-对象矩阵中的每一个元素为两个词条对应的特征向量组成的特征向量簇;
子步骤D2:对每一特征向量簇,将其包括的两个特征向量分别转换为二进制码,利用汉明码计算该两个特征向量之间的距离;以及
子步骤D3:将目标词库中距离小于预设阈值的两特征向量对应的词条聚合,作为一词条对,并将包含同一词条的多个词条对合并为一词条组。
2.根据权利要求1所述的搜索关键字频度解析方法,其特征在于,所述步骤E中,根据预设半径参数确定词条聚合分布的区域,在该范围内采用K近邻算法对聚合的词条进行分类包括:
子步骤E1:设定半径R0;
子步骤E2:求取词条组中全部词条对应特征向量的平均值向量;
子步骤E3:计算词条组中每一词条对应特征向量与该平均值向量的距离;
子步骤E4:将距离小于半径R0的特征向量对应的词条归结为一类。
3.根据权利要求2所述的搜索关键字频度解析方法,其特征在于,所述子步骤E4之后还包括:
子步骤E5:将分类结果存储至数据库。
4.根据权利要求1至3中任一项所述的搜索关键字频度解析方法,其特征在于,所述步骤A包括:
子步骤A1:从数据库中提取搜索关键词记录;
子步骤A2:对记录进行分词处理,去除副词、助词、标点符号,得到一个或多个词条;以及
子步骤A3:将词条作为参数进行停用词库的查询,删除停用的词条,进而完成对词条的清洗工作。
5.根据权利要求4所述的搜索关键字频度解析方法,其特征在于,所述子步骤A2中,利用ICTCLAS或自建分词引擎对记录进行分词处理。
6.根据权利要求1至3中任一项所述的搜索关键字频度解析方法,其特征在于,所述步骤B包括:采用预先定义的过滤词库或规则库,对预处理得到的目标词库中的目标词条按照预设的权重门限进行条件过滤,去除对语义权重贡献较小的弱相关词条。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610158328.5/1.html,转载请声明来源钻瓜专利网。