[发明专利]搜索关键字频度解析方法、装置、电子设备及介质有效
申请号: | 201610158328.5 | 申请日: | 2016-03-18 |
公开(公告)号: | CN107203570B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 兰华勇 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 11021 中科专利商标代理有限责任公司 | 代理人: | 曹玲柱 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于HLSA的搜索关键词频度解析方法和装置。本发明中,引入包含主题思想的LSA空间模型进行关键词聚合,进而解决和弥补了基于VSM向量的欧式距离模型没有考虑词本身语义信息的不足之处以及基于编辑距离模型关键词顺序发生变化时带来的误差。此外,本发明还结合汉明码计算关键词间特征向量的相似度,形成新型HLSA算法,提高了相似度计算效率;并且,利用K近邻算法分类并统计关键词频度,可以将不同粒度的关键词进行聚合,从而有效地避免了最长公共子串模型由于粒度太细所产生的误判。 | ||
搜索关键词: | 搜索 关键字 频度 解析 方法 装置 | ||
【主权项】:
1.一种搜索关键字频度解析方法,其特征在于,包括:/n步骤A:提取搜索关键词记录,对其进行分词、清洗,得到目标词条,多条的目标词条构成目标词库;/n步骤B:去除目标词库中对语义权重贡献较小的弱相关词条;/n步骤C:对目标词库中的目标词条进行近义词或同义词的替换;/n步骤D:采用特征-对象矩阵将高维空间映射到低维的潜在语义结构上所构建出的LSA空间模型,结合汉明码计算词条特征向量之间的距离,聚合特征向量距离等同或相近的特征向量对应的词条,生成词条组;/n步骤E:对聚合后的每一个词条组,根据预设半径参数确定词条聚合分布的区域,在该范围内采用K近邻算法对聚合的词条进行分类;以及/n步骤F:基于分类结果与目标词库中每个词条的搜索次数进行频度解析,其中,归结为一类的词条的搜索次数作为整体进行频度解析;/n其中,所述步骤D包括:/n子步骤D1:由目标词库中的词条构建二维的特征-对象矩阵,该特征-对象矩阵中的每一个元素为两个词条对应的特征向量组成的特征向量簇;/n子步骤D2:对每一特征向量簇,将其包括的两个特征向量分别转换为二进制码,利用汉明码计算该两个特征向量之间的距离;以及/n子步骤D3:将目标词库中距离小于预设阈值的两特征向量对应的词条聚合,作为一词条对,并将包含同一词条的多个词条对合并为一词条组。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610158328.5/,转载请声明来源钻瓜专利网。