[发明专利]基于web的文本分类挖掘系统及方法无效
申请号: | 201110160465.X | 申请日: | 2011-06-15 |
公开(公告)号: | CN102184262A | 公开(公告)日: | 2011-09-14 |
发明(设计)人: | 张杰;刘奎飞 | 申请(专利权)人: | 悠易互通(北京)广告有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市炜衡律师事务所 11375 | 代理人: | 王启莺 |
地址: | 100026 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 web 文本 分类 挖掘 系统 方法 | ||
技术领域
本发明涉及信息检索及数据挖掘技术,尤其涉及一种基于web的文本分类挖掘系统及方法。
背景技术
当今世界计算机的广泛发展,数据库技术的成熟,使得人类积累的数据量越来越庞大,形成了数据丰富但知识匮乏的局面。各个领域的人们都期待有一种方法能高效率地从大量的数据中发现有用信息即知识,在这种背景下,知识发现和数据挖掘的研究成为热点。
数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。数据挖掘涉及数据库、人工智能、机器学习和统计分析等多个领域的理论和技术。数据挖掘技术能从大型数据库或数据仓库中自动分析数据,进行归纳性推理,从中发掘出潜在的模式;或者产生联想,建立新的业务模型,帮助决策者调整市场策略,做出正确的决策。伴随计算能力的增长,算法及大规模数据存储技术的成熟,数据挖掘逐渐走出实验室,在生产领域发挥着积极的作用。
随着上世纪90年代以来互联网的迅速发展,海量信息的管理和利用问题,向传统的数据挖掘提出了新的技术要求:如何从这些众多的信息资源中快速的发现自己所需要的知识。因此迫切需要一种高效快速的信息资源分析工具,以帮助用户快速浏览网络,并能从这些大量的信息中找出隐含的知识,减少用户的负担。
面对这种需求,Web挖掘成为近几年来新兴的研究领域。它从数据挖掘发展而来,又面临很多前所未有的问题:如,数据量不断膨胀,处在动态变化中难以控制,数据安全难以保证,数据形式不一致难以统一处理等。
由于Web在当今社会扮演越来越重要的角色,有关Web内容挖掘、Web日志挖掘和与Web有关的数据挖掘服务,成为数据挖掘中一个重要和逐渐繁荣的领域。为了能够准确、快速、合理的利用Web上不断增长的信息,Web挖掘的研究显得更加重要了。利用Web的特性,应用和改进原有的数据挖掘技术在Web文档中发现和分析有用信息逐渐成为知识发现研究的重要方向。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于web的文本分类挖掘系统及方法,利用HTML标记权重改善朴素的贝叶斯算法的条件独立假设的不足,对分类器进行了改进,以提高数据挖掘的查全率和查准率。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于web的文本分类挖掘系统,该系统主要包括文本预处理模块、分词处理模块和分类算法模块;其中,
文本预处理模块,用于从待测试文本中自动筛选和预处理特定的信息,过滤掉无关的信息,以有效地表示文本;
分词处理模块,用于将所述文本进行分词,找到每个文本具有的属性/属性词,为特征词的选择做准备;
分类算法模块,用于进行特征选择,得到最优的特征子集,或按照训练结果的文件提供的数据,找到相应的概率,比较得到最大概率所属的类别,得出结论,最后将结果存储在文件中。
其中,所述待测试文本,包括含有多媒体信息和非结构化信息的网页。
一种基于web的文本分类挖掘方法,该方法包括:
A、文本集训练的步骤:包括:扫描待训练的文本;对文本进行分词,为特征选择做准备;进行特征选择,得到最优的特征子集;利用有效的权值进行计算,再次优化特征子集;最后利用一定的条件进行计算,将结果存储在文件中;
B、文本特征库分类的步骤:包括:扫描训练文本;对文本进行分词,找到每个文本具有的属性/词;按照训练结果的文件提供的数据,找到相应的概率;比较得到最大的概率所属的类别,得出结论。
其中,所述利用一定的条件进行计算,该条件具体为通过类别的先验概率和词的分布来计算未知文本属于某一类别的概率:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于悠易互通(北京)广告有限公司,未经悠易互通(北京)广告有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110160465.X/2.html,转载请声明来源钻瓜专利网。