[发明专利]基于中文分词的旅游信息抽取与聚合方法无效

专利信息
申请号: 201110051652.4 申请日: 2011-03-03
公开(公告)号: CN102654873A 公开(公告)日: 2012-09-05
发明(设计)人: 吴志祥 申请(专利权)人: 苏州同程旅游网络科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京苏科专利代理有限责任公司 32102 代理人: 陈忠辉
地址: 215123 江苏省苏州*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 中文 分词 旅游 信息 抽取 聚合 方法
【权利要求书】:

1.基于中文分词的旅游信息抽取与聚合方法,其特征在于包括以下步骤:

步骤①,收集初始旅游业特征词库;

步骤②,进行网页获取及预处理;

步骤③,网页正文的提取;

步骤④,词法分析及信息提取;

步骤⑤,信息聚合。

2.根据权利要求1所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于:所述的收集初始旅游业特征词库为,首先对行业内已经存在的特征词语的收集整理;然后,根据以前网站的系统运行日志,分析出新的旅游业特征词;之后,将两者进行合并,形成初始旅游业特征词库。

3.根据权利要求2所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于:所述的初始旅游业特征词需进行完善,既在每个月的特定时间,将已经分析好的线上网站运行日志进行统计,将发现的新词放入新词库,在新词库中停留一个月;之后将已经确定的新词转入旅游业特征词库;对于新形成的热点词语,通过快速反应机制,直接转入旅游业特征词库。

4.根据权利要求1所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于:所述的网页获取为对旅游领域的网页信息进行获取,采用网络爬虫,通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址;然后通过这些链接地址寻找下一个网页,如此循环,直到把这个网站所有的网页都抓取完为止;所述的预处理为,利用HTMLParser提供标准类库的Parser函数,解析HTML文档,生成DOM树。

5.根据权利要求1所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于:对页正文提取时,对网页进行扫描,将有缺陷的页面修复,即使用JTidy开放源代码工具,修正HTML文档中的常见错误并生成格式编排良好的等价文档;同时,去除页面噪音。

6.根据权利要求5所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于:所述的页面噪音为网页页面上存在的无关内容,包括有页头、页脚、广告、图像、脚本、函数、标签节点内容;除页面噪音方法为,根据HTML标签来去除Web文档中存在的噪音元素,根据噪音源的特征定义特定的规则进行过滤。

7.根据权利要求1所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于:所述的词法分析及信息提取包括中文分词和停用词过滤,所述的中文分词采用开源分词工具IKAnal yzer,并结合旅游领域词汇组成中文分词处理模块,同时采用多子处理器分析模式,支持英文字母、数字,中文词汇分词处理;利用IKAnalyze分词工具将通过网页正文提取得到的纯文本的关于旅游的信息与初始旅游业特征词库中的词条进行匹配,若在词库中找到某个字符串,则匹配成功,识别出一个词,匹配成功的词都是我们需要提取的旅游信息,存入索引库。

8.根据权利要求7所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于:所述的词法分析及信息提取包括采用优化的词典存储,支持用户词典扩展定义。

9.根据权利要求1所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于:所述的提取构成为,首先找出网页中所有的开始标记,接着逐次找出网页中每个标记,并检查其是不是一个有开始标记与其对应的结束标记或者是注释标记;如果是没有对应开始标记的结束标记或者是注释标记,就删除该标记;否则,如果是有对应开始标记的结束标记,就将这个结束标记与其开始标记之间的内容提取出来,此时得到的关于旅游的信息是以纯文本形式的。

10.根据权利要求1所述的基于中文分词的旅游信息抽取与聚合方法,其特征在于:所述的信息聚合为,当用户输入关键字查询相关旅游信息时,通过索引库查找就能找到相关的旅游信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州同程旅游网络科技有限公司,未经苏州同程旅游网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110051652.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top