[发明专利]一种网络搜索词的聚类方法和聚类装置在审
申请号: | 201410377357.1 | 申请日: | 2014-08-01 |
公开(公告)号: | CN104199833A | 公开(公告)日: | 2014-12-10 |
发明(设计)人: | 孙鹏飞 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝;吴昊 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 搜索词 方法 装置 | ||
技术领域
本发明涉及数据分析技术领域,特别涉及一种网络搜索词的聚类方法和聚类装置。
背景技术
聚类分析是数据分析中的一种重要技术,在网站信息分类问题、网页的点击行为关联性问题及用户搜索词(query)分类问题等多个领域得到广泛的关注和研究。它可以将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。
现有方案在对用户搜索词进行聚类时,根据用户共同点击的URL(Uniform Resource Locator,统一资源定位符)进行聚类分析,将具有相同URL的用户搜索词划分为同一类。
然而,单纯依靠共同点击的URL进行聚类是片面的、不准确的,例如,仅依赖用户共同点击的URL得到的聚类结果中会出现长尾现象,也就是说,只有少数20%的高频搜索词,才会对应相同的URL,而其他80%的搜索词没有共同的URL。再如,一些搜索词虽然没有共同的URL,但是却应该聚到一起,如“金融”和“股票”。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网络搜索词的聚类方法和相应的聚类装置。
依据本发明的一个方面,本发明实施例提供了一种网络搜索词的聚类方法,包括:
从搜索日志中提取出需要进行聚类的网络搜索词;
对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息;
对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量;
判断任两个所述关键词向量是否为相似的关键词向量;
当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量;
当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。
可选地,所述对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息包括:
将对应于相同URL的网络搜索词设置在短文本信息中,其中,当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时,从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中;
从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值,将所述属性值设置在在所述短文本信息中。
可选地,在对所述短文本信息提取关键词之前,所述方法还包括:
剔除所述短文本信息中的停用词,并对剔除停用词后的短文本信息中的词项进行词性分析,得到各词项的词性。
其中,对所述短文本信息提取关键词包括:
将预定词性的词项选取为所述关键词,所述词性包括名词、形容词、副词和动词。
可选地,所述根据所述关键词得到每条短文本信息对应的关键词向量包括:
利用关键词在关键词向量中的词频值,计算所述关键词在每条短文本信息中的权重值;
根据所述关键词和关键词在本条短文本信息中的权重值,得到本条短文本信息对应的关键词向量。
并且,所述判断任两个所述关键词向量是否为相似的关键词向量包括:
根据两个关键词向量中各关键词的权重值,计算两个关键词向量之间的余弦相似度,当计算出的余弦相似度大于预定阀值时,判断所述两个关键词向量为相似的关键词向量,当计算出的余弦相似度不大于预定阀值时,判断所述两个关键词向量不是相似的关键词向量。
其中,所述计算两个关键词向量之间的余弦相似度包括:
对第一关键词向量中的第一关键词,在设置的词项倒排索引表中查询该第一关键词对应的关键词向量,当对应的关键词向量包括第二关键词向量时,获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词;
利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度;
上述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。
可选地,所述方法还包括建立关键词向量和短文本信息的对应关系:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司;,未经北京奇虎科技有限公司;奇智软件(北京)有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410377357.1/2.html,转载请声明来源钻瓜专利网。