[发明专利]基于web的文本分类挖掘系统及方法无效
申请号: | 201110160465.X | 申请日: | 2011-06-15 |
公开(公告)号: | CN102184262A | 公开(公告)日: | 2011-09-14 |
发明(设计)人: | 张杰;刘奎飞 | 申请(专利权)人: | 悠易互通(北京)广告有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市炜衡律师事务所 11375 | 代理人: | 王启莺 |
地址: | 100026 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 web 文本 分类 挖掘 系统 方法 | ||
1.一种基于web的文本分类挖掘系统,其特征在于,该系统主要包括文本预处理模块、分词处理模块和分类算法模块;其中,
文本预处理模块,用于从待测试文本中自动筛选和预处理特定的信息,过滤掉无关的信息,以有效地表示文本;
分词处理模块,用于将所述文本进行分词,找到每个文本具有的属性/属性词,为特征词的选择做准备;
分类算法模块,用于进行特征选择,得到最优的特征子集,或按照训练结果的文件提供的数据,找到相应的概率,比较得到最大概率所属的类别,得出结论,最后将结果存储在文件中。
2.根据权利要求1所述的基于web的文本分类挖掘系统,其特征在于,所述待测试文本,包括含有多媒体信息和非结构化信息的网页。
3.一种基于web的文本分类挖掘方法,其特征在于,该方法包括:
A、文本集训练的步骤:包括:扫描待训练的文本;对文本进行分词,为特征选择做准备;进行特征选择,得到最优的特征子集;利用有效的权值进行计算,再次优化特征子集;最后利用一定的条件进行计算,将结果存储在文件中;
B、文本特征库分类的步骤:包括:扫描训练文本;对文本进行分词,找到每个文本具有的属性/词;按照训练结果的文件提供的数据,找到相应的概率;比较得到最大的概率所属的类别,得出结论。
4.根据权利要求3所述的基于web的文本分类挖掘方法,其特征在于,所述利用一定的条件进行计算,该条件具体为通过类别的先验概率和词的分布来计算未知文本属于某一类别的概率:
其中,P(Cj|X)为样本X属于类Cj的概率,P(X|Cj)为类Cj中含有样本X的概率;在所有P(Cj|X)(j=1,2,...,m)中,若P(CK|X)值最大,则文本X归为CK类,P(X)是常数。
5.根据权利要求4所述的基于web的文本分类挖掘方法,其特征在于,假设文本中词/属性的分布是条件独立的,则P(Cj|X)=P(Cj)P(X|Cj);
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于悠易互通(北京)广告有限公司,未经悠易互通(北京)广告有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110160465.X/1.html,转载请声明来源钻瓜专利网。