[发明专利]一种文本聚类元学习方法及装置有效
申请号: | 200710117752.6 | 申请日: | 2007-06-22 |
公开(公告)号: | CN101079072A | 公开(公告)日: | 2007-11-28 |
发明(设计)人: | 向继;夏鲁宁;荆继武;冯登国 | 申请(专利权)人: | 中国科学院研究生院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 宋志强;麻海明 |
地址: | 100039北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 聚类元 学习方法 装置 | ||
1、一种文本聚类元学习方法,其特征在于,该方法包括以下步骤:
A、用文本分析方法对文本集进行软聚类或软分类处理,得到至少两个聚类或分类结果;
B、将所述聚类或分类结果分别表示成处理结果矩阵,将所述处理结果矩阵拼接成文本向量矩阵;
C、对所述文本向量矩阵进行元学习,得到最终聚类结果。
2、根据权利要求1所述的方法,其特征在于:步骤A中的文本分析方法为软聚类方法和/或软分类方法。
3、根据权利要求1所述的方法,其特征在于,所述步骤B中的将所述处理结果矩阵拼接成文本向量矩阵包括:将所述处理结果矩阵分别乘上预先设置的权值后,再将所有的处理结果矩阵拼接成文本向量矩阵。
4、根据权利要求1所述的方法,其特征在于,步骤A之前还包括:对所述文本集进行预处理;所述预处理包括:分词、特征选取和文本向量化。
5、一种文本聚类元学习装置,其特征在于,该装置包括:文本分析模块、矩阵合成模块和元学习模块;
所述文本分析模块,用于对文本集进行软聚类或软分类处理,将得到的聚类或分类结果发送给所述矩阵合成模块;
所述矩阵合成模块,用于将所接收到的聚类或分类结果转化成矩阵,并将转化后的矩阵拼接成文本向量矩阵,将所述文本向量矩阵发送给所述元学习模块;
所述元学习模块,用于对接收到的文本向量矩阵进行元学习,输出最终聚类结果。
6、根据权利要求5所述的装置,其特征在于,所述装置还包括:预处理模块;
所述预处理模块,用于对文本集中的文本进行文本向量化,将文本向量化后的文本集发送给所述文本分析模块。
7、根据权利要求6所述的装置,其特征在于,所述预处理模块包括:分词单元、特征选取单元和文本向量化单元;
所述分词单元,用于将文本集中的文本划分为单个的词,并统计每个词在文本集中出现的次数,将划分结果和统计结果发送给所述特征选取单元;
所述特征选取单元,用于根据接收到的划分结果和统计结果,从文本集中选取特征词,将选取的特征词发送给所述文本向量化单元;
所述文本向量化单元,用于根据接收到的特征词将文本集中的文本转化成文本向量,将文本向量化后的文本集发送给所述文本分析模块。
8、根据权利要求5所述的装置,其特征在于,所述矩阵合成模块包括:矩阵化单元和合成单元;
所述矩阵化单元,用于将接收到的聚类或分类结果转化成矩阵,将转化后的矩阵发送给所述合成单元;
所述合成单元,用于将接收到的所有转化后的矩阵拼接成一个文本向量矩阵,将所述文本向量矩阵发送给所述元学习模块。
9、根据权利要求5所述的装置,其特征在于,所述元学习模块包括:归一化单元和学习单元;
所述归一化单元,用于对接收到的文本向量矩阵进行归一化处理,将归一化后的文本向量矩阵发送给所述学习单元;
所述学习单元,用于对接收到的归一化后的文本向量矩阵进行元学习,输出最终聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院研究生院,未经中国科学院研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710117752.6/1.html,转载请声明来源钻瓜专利网。