[发明专利]OTA的民宿客栈挖掘方法在审
申请号: | 201710202511.5 | 申请日: | 2017-03-30 |
公开(公告)号: | CN106875134A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 李翔;严捷冰;李发科;鞠涛伟 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/12;G06F17/30;G06K9/62;G06K9/66;G06N3/08 |
代理公司: | 上海弼兴律师事务所31283 | 代理人: | 薛琦,张冉 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | ota 客栈 挖掘 方法 | ||
技术领域
本发明涉及一种信息挖掘领域,特别是涉及一种OTA的民宿客栈挖掘方法。
背景技术
当前,在旅游出行中选择入住民宿和客栈的游客数量不断增长。为了满足用户的需求,在线旅游公司(OTA)需要从现有售卖酒店中挖掘出尽可能多的民宿和客栈供用户选择。然而OTA售卖的酒店数量往往数以十万计,数量已远远超过人工挖掘的限度。因此,利用计算机对酒店的相关信息进行分析和判断,挖掘出其中的民宿和客栈成为了迫切的需求。民宿客栈挖掘的关键是判断酒店是属于传统酒店类型还是属于民宿客栈类型。当前,关于OTA的民宿客栈挖掘的相关研究尚未深入展开,鲜有利用计算机自动从OTA售卖的海量酒店中挖掘出民宿和客栈的方法,实现民宿客栈的快速而准确的挖掘成为了一项具有挑战性的任务。
发明内容
本发明要解决的技术问题是为了克服现有技术中无法对OTA售卖酒店中的民宿客栈进行快速而准确挖掘的缺陷,提供一种实用性强、准确率高、速度快的OTA的民宿客栈挖掘方法。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供了一种OTA的民宿客栈挖掘方法,其特点在于,包括以下步骤:
S1、建立基于酒店文本信息的民宿客栈粗粒度挖掘模型;
S2、建立基于酒店图像信息的民宿客栈细粒度挖掘模型;
S3、结合所述粗粒度挖掘模型和所述细粒度挖掘模型对OTA酒店中的民宿客栈进行挖掘。
较佳地,步骤S1包括:
S11、建立一系列关键字集合,包括:
包含集团酒店关键字的第一集合;包含传统酒店的酒店名称关键字的第二集合;包含传统酒店的房型名称关键字的第三集合;包含民宿客栈的酒店名称关键字的第四集合;包含古镇、景区和商业区关键字的第五集合;包含民宿客栈的用户点评关键字的第六集合;
S12、对于待挖掘的OTA酒店,若属于步骤S11建立的第一集合中的集团酒店关键字对应的集团酒店,或酒店名称中出现步骤S11建立的第二集合中的关键字,或房型名称中出现步骤S11建立的第三集合中的关键字,则所述待挖掘的OTA酒店被判为属于传统酒店;若酒店名称中出现步骤S11建立的第四集合中的关键字,则所述待挖掘的OTA酒店被判为属于民宿客栈;若不满足上述两种情况,则执行S13;
S13、利用步骤S11建立的第五集合,结合所述待挖掘的OTA酒店的位置信息进行进一步挖掘,若酒店位于所述第五集合中的古镇和商业区关键字对应的古镇和商业区,或位于所述第五集合中的景区关键字对应的景区附近第一距离阈值范围内,则所述待挖掘的OTA酒店被判为待定酒店,若不满足,则执行S14;
S14、将步骤S11建立的第六集合中的关键字在所述待挖掘的OTA酒店的用户点评中进行搜索,若包括所述关键字的用户点评数量大于等于第一阈值并且所述用户点评数量占所有用户点评的比例大于等于第二阈值,则所述酒店被判为待定酒店,否则被判为传统酒店。
较佳地,步骤S2包括:
S21、收集多个图像,并生成第一图像训练集;
S22、利用所述第一图像训练集训练基于深度神经网络的图像特征提取模型;
S23、收集传统酒店和民宿客栈两个类别的外观图像,生成第二图像训练集;
S24、利用所述第二图像训练集训练基于外观图像的传统酒店和民宿客栈的二分类模型,通过判断酒店外观图像是否属于民宿客栈,实现民宿客栈的细粒度挖掘。
较佳地,步骤S22中所训练的图像特征提取模型使用的深度神经网络为8层的卷积神经网络。
较佳地,步骤S22中所述的图像特征提取模型,将待提取特征的图像作为所述网络的输入,将所述待提取特征的图像在所述网络的特定层的输出值作为特征表达。
较佳地,步骤S24包括:
S241、将通过步骤S23生成的所述第二图像训练集中的所有图像,利用步骤S22训练得到的所述图像特征提取模型进行特征提取,获取相应的图像特征表达;
S242、利用通过步骤S241提取到的所述第二图像训练集中的图像对应的图像特征表达,训练一个集成学习分类器,输入一张酒店的外观图像到所述集成学习分类器,则输出图像所属类别,类别包括传统酒店、民宿客栈。
较佳地,步骤S3包括:
S31、对于一家OTA酒店,利用步骤S1建立的民宿客栈粗粒度挖掘模型进行第一次挖掘;
S32、对于一家OTA酒店,利用步骤S2建立的民宿客栈细粒度挖掘模型进行第二次挖掘;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710202511.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网状式公交系统的构建方法
- 下一篇:补货方法及其装置
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理