[发明专利]基于主题的旅游本体构建方法有效

专利信息
申请号: 201710992960.4 申请日: 2017-10-23
公开(公告)号: CN107679226B 公开(公告)日: 2019-03-05
发明(设计)人: 林小光;杜佩文;钟坤华;张矩 申请(专利权)人: 中国科学院重庆绿色智能技术研究院
主分类号: G06F16/9537 分类号: G06F16/9537;G06F16/9535;G06F16/35;G06Q50/14;G06F17/27
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 赵荣之
地址: 400714 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于主题的旅游本体构建方法,属于旅游信息化领域。该方法步骤为:通过对各大旅游网站进行旅游景点描述性文字的爬虫爬取数据,并进行去重去噪后,对文本分词;训练文档主题生成模型,得到文档‑主题矩阵,并提取出主题,作为兴趣点;通过词语相关性得出所述主题之间的关联度,然后将兴趣点再次归为大主题,作为本体的一级类;根据分词产生的关键词进行人工筛选后,选出旅游项目,放到对应景点下;利用信息熵进行主题划分效果的评判;最后进行本体的构建。本发明考虑了地域、最佳游玩季节、推荐游玩时长、价格等因素,并且具体到旅游项目,可以用于旅游推荐网站导航,旅游线路动态规划,旅游信息扩展搜索。
搜索关键词: 构建 旅游项目 兴趣点 游玩 矩阵 旅游信息化 描述性文字 爬虫 动态规划 旅游景点 旅游网站 旅游线路 旅游信息 人工筛选 生成模型 文本分词 文档主题 旅游 关联度 信息熵 分词 去噪 去重 时长 网站 文档 词语 搜索 评判 地域 景点
【主权项】:
1.基于主题的旅游本体构建方法,所述旅游本体包括类、关系、函数、属性和实例五种元素,其特征在于:该方法包括以下步骤:S1:通过Python语言和BeautifulSoup4库对各大旅游信息类网站有关旅游景点描述性文字内容进行爬取;S2:将爬取的数据进行去重去噪,并利用Java中文分词器Ansj对文本进行分词;S3:使用文档主题生成模型LDA对分词结果进行训练,得到“文档‑主题”矩阵,并提取出主题,作为兴趣点;通过词语相关性,计算主题之间的关联度,然后将相关性大的兴趣点归集为大主题,作为本体的一级类;将各个景点根据“文档‑主题”矩阵具体分配到对应兴趣点下,并利用景点的属性描述景点;最后将分词产生的关键词进行人工筛选后,选出旅游项目,归类到至对应景点;S4:利用信息熵进行主题划分效果的评判,信息熵越小主题划分效果越好,找到最小的信息熵对应的本体参数;S5:利用protege4.3框架进行本体的构建;所述类为四级结构,包括主题、兴趣点、景点和旅游项目;所述关系包括属于、位于和包含;所述属性包括开放时间、价格、最佳游玩季节、地域、别名和推荐游玩时间;所述实例包括景点和旅游项目;所述在步骤S2中,根据旅游领域的知识,分词的时候添加适用的常用词表和停用词表,使得分词的结果满足需求;在步骤S3中,所述主题由十个词描述,所述文档与景点一一对应。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院,未经中国科学院重庆绿色智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710992960.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top