[发明专利]酒店信息的聚类匹配方法及系统有效
申请号: | 201710547456.3 | 申请日: | 2017-07-06 |
公开(公告)号: | CN107291939B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 何鸣;冯兆龙;胡泓;陈瑞亮 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06Q50/12 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 酒店 信息 匹配 方法 系统 | ||
本发明公开了一种酒店信息的聚类匹配方法及系统,其中所述聚类匹配方法包括:S1、获取待聚类酒店的至少一酒店特征信息和对比酒店的至少一酒店特征信息;S2、计算所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;S3、计算所述待聚类酒店与所述对比酒店的酒店相似度。本发明弥补了在海量级酒店信息库中,传统匹配方法匹配酒店时,效率低,错误率高的缺陷。通过本聚类匹配方法,使用户能更快、更准确地在酒店信息库中找到相似度高的酒店,并聚类匹配到同一家酒店。
技术领域
本发明涉及酒店数据管理领域,特别是涉及一种酒店信息的聚类匹配方法及系统。
背景技术
现代社会已经进入大数据、云计算时代,互联网的快速发展产生了海量的数据信息。但这些海量的数据中也存在大量的重复冗余或者是相似相近的信息,同时信息中还夹杂着不少干扰信息。为了获取信息之间的关系,需要通过聚类分析,找到相关相近信息,然后可以进行聚类或是去重,把相关相似的信息归为同一类处理。
现有的在线旅游网站在匹配酒店时,同样存在上述的问题,目前在酒店信息库中,匹配酒店时所采用的相似度算法都是基于“分词+词库+字符”相似度的规则进行匹配。而实际生活中,酒店信息库数据量非常大,传统的匹配方法所使用相似性算法无法胜任在大数据条件下的聚类,算法运行时间按周计算而无法接受。
此外,现有的酒店信息库存在酒店特征信息缺少或错误,酒店数据大量的重复冗余,多家酒店共有相同酒店特征信息,以及人为因素引入的脏数据或异常数据等情况。传统的匹配方法,匹配结果错误率高。
所以传统的匹配方法,无法满足在海量级的酒店信息库中,特别是酒店信息缺少和错误的情况下,查找出与待匹配的酒店相同或相似的酒店。
发明内容
本发明要解决的技术问题是为了克服现有技术中传统聚类和去重方法无法胜任在大数据条件下的酒店信息库中聚类的缺陷,提供一种酒店信息的聚类匹配方法及系统。
本发明是通过下述技术方案来解决上述技术问题:
一种酒店信息的聚类匹配方法,所述聚类匹配方法包括:
S1、获取待聚类酒店的至少一酒店特征信息和对比酒店的至少一酒店特征信息;
S2、计算所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
S3、计算所述待聚类酒店与所述对比酒店的酒店相似度:
n为酒店特征信息种类的数量;
i为1至n的正整数;
Si为步骤S2中,第i个所述待聚类酒店的酒店特征信息与所述对比酒店的酒店特征信息的相似度;
Wi为Si对应的权重;
Shotel为所述待聚类酒店与所述对比酒店的酒店相似度。
较佳地,S1还包括:
建立酒店信息库,所述酒店信息库中包括若干酒店的酒店特征信息以及酒店特征信息索引;
根据所述待聚类酒店的酒店特征信息,在所述酒店信息库中检索所述酒店特征信息索引,挑选至少一预匹配酒店,形成预匹配酒店集合;
将所述预匹配酒店集合中的每个预匹配酒店分别作为所述对比酒店。
较佳地,S1中的所述酒店特征信息包括酒店名称;
S2包括:计算所述待聚类酒店的酒店名称与所述对比酒店的酒店名称的相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710547456.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:订单查询系统及方法
- 下一篇:页面内容管理方法、装置及相关服务器
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置