[发明专利]基于中文分词的旅游信息抽取与聚合方法无效
申请号: | 201110051652.4 | 申请日: | 2011-03-03 |
公开(公告)号: | CN102654873A | 公开(公告)日: | 2012-09-05 |
发明(设计)人: | 吴志祥 | 申请(专利权)人: | 苏州同程旅游网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 陈忠辉 |
地址: | 215123 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 中文 分词 旅游 信息 抽取 聚合 方法 | ||
技术领域
本发明涉及一种信息抽取与聚合方法,尤其涉及一种基于中文分词的旅游信息抽取与聚合方法。
背景技术
随着计算机的普及以及互联网的迅猛发展,互联网已经成为全球传播与共享科研、教育、商业和社会信息等最重要和最具潜力的巨大信息源。面对如此巨大的互联网信息库,如何快速、有效、经济地得到某个主题的所有相关信息就成了当前一个十分热门的研究课题。与传统的信息资源相比,互联网上信息资源有着分布性、异构性、开放性、动态性和庞大性等特点,这些特点导致互联网上数据的信息接口和组织形式各不相同,也使得互联网上的信息资源不能被有效的利用。信息抽取(InformationExtraction)研究正是在这种背景下产生的。
什么是信息抽取:信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。
信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在互联网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。
由于互联网上的信息载体主要是文本,所以信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库。
在互联网信息抽取领域中,信息抽取的准确性和通用性之间的矛盾一直是该研究领域的难题。性能较好的信息抽取技术需要用户的大量参与,但自动化程度不高;而自动化程度高的抽取技术其准确率和适应性较低,实用性较差。即使是机器学习,也要通过大量的样本学习来提高获取规则的自动化程度,这意味着系统需要经过较长时间的学习才能获得较好的查准率。
纵观信息抽取技术的发展历史,研究者们提出了不少优秀的抽取策略。从实现方法的原理出发,可以将信息抽取技术划分为4个类别:①基于自然语言理解方式;②基于ontology方式;③基于网页结构特征方式;④基于统计学习的方式。
基于自然语言理解方式的信息抽取在一定程度上借鉴了自然语言处理技术,利用子句结构、短语和子句间的关系建立基于语法和语义的抽取规则,实现信息抽取。其缺点是抽取速度慢,使用范围窄,很难做到通用。基于ontology方式主要是利用对数据本身的描述信息实现抽取,对网页结构的依赖较少。只要事先创建的应用领域的ontology足够强大,系统可以对某一应用领域中各种网页实现信息抽取。目前只能对特定领域构建,并且还只能采用半自动的方式由人工参与,这样使得该方法要求很高,工作量巨大。基于网页结构特征方式的特点是根据Web页面的结构来定位信息,在信息抽取之前通过解析器将Web文档解析成语法树,然后通过自动或半自动的方式产生抽取规则,最终转化为对语法树的操作来实现信息的抽取,本策略实现简单,抽取的准确性好,但要求人工参与。基于统计学习的信息抽取策略是根据统计学原理,首先构造一个模型以模拟信息抽取的过程,应用统计学方法从训练语料中得出模型的参数;然后用训练好的模型对待抽取语料进行信息抽取。该方法需要经过较长时间的样本学习,且实现复杂。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于中文分词的旅游信息抽取与聚合方法
本发明的目的通过以下技术方案来实现:
基于中文分词的旅游信息抽取与聚合方法,其包括以下步骤:步骤①,收集初始旅游业特征词库;步骤②,进行网页获取及预处理;步骤③,网页正文的提取;步骤④,词法分析及信息提取;步骤⑤,信息聚合。
上述的基于中文分词的旅游信息抽取与聚合方法,其中:所述的收集初始旅游业特征词库为,首先对行业内已经存在的特征词语的收集整理;然后,根据以前网站的系统运行日志,分析出新的旅游业特征词;之后,将两者进行合并,形成初始旅游业特征词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州同程旅游网络科技有限公司,未经苏州同程旅游网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110051652.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用支护桩的抗浮结构
- 下一篇:一种施加预应力的水泥土重力式围护墙