[发明专利]一种领域本体的构建方法和装置有效
申请号: | 201410822832.1 | 申请日: | 2014-12-24 |
公开(公告)号: | CN105786898B | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 黄毅;周文辉;冯俊兰;李明洋;张鹏 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 本体 构建 方法 装置 | ||
1.一种领域本体构建方法,其特征在于,包括:
提取文档集合包含的每一文档的特征信息;
根据提取的特征信息,利用聚类算法对所述文档集合包含的文档进行聚类得到K1个簇,其中K1为正整数;
从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇;
分别从所述正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器;
利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合,判断所述第二类文档集合中包含的文档数量是否低于预设值;
如果所述第二类文档集合包含的文档数量不低于预设值时,根据各文档对应的特征信息,利用聚类算法对所述第二类文档集合包含的文档进行聚类得到K2个簇,并返回执行从得到的簇中提取至少一个领域概念,针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇,分别从正例簇和负例簇中选择预设数量的文档,根据选择出的文档确定文档分类器,利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合的步骤,直至所述第二类文档集合中的文档数量低于预设值,其中K2为正整数。
2.如权利要求1所述的方法,其特征在于,根据提取的特征信息,利用聚类算法对所述文档集合包含的文档进行聚类得到K1个簇,具体包括:
从所述文档集合中选择K1个文档作为初始聚类中心点;
将所述文档集合包含的每一文档与其距离最近的初始聚类中心点划分为同一簇;
对于得到的每一个簇,确定该簇的中心点作为新的聚类中心点;并
根据所述文档集合包含的每一文档与新的聚类中心点之间的最近距离将所述文档集合包含的文档重新划分为K1个簇;
针对得到的每一个簇重复执行确定该簇的中心点作为新的聚类中心点,并根据所述文档集合包含的每一文档与新的聚类中心点之间的最近距离将所述文档集合包含的文档重新划分为K1个簇的步骤,直至得到的每一个簇包含的文档不再变化。
3.如权利要求1所述的方法,其特征在于,按照以下方法确定K1:
分别利用预先设定的K1的取值范围内包含的每一数值对所述文档集合包含的文档进行聚类;
针对所述取值范围内的每一数值,确定利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数;
确定与最大轮廓系数对应的数值为K1。
4.如权利要求3所述的方法,其特征在于,针对所述取值范围内的每一数值,确定利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数,具体包括:
针对所述取值范围内的每一数值,针对利用该数值对所述文档集合包含的文档进行聚类得到的每一个簇所包含的每一文档,按照以下公式确定该文档的轮廓系数:其中:
i和j为文档标识;
Si为该文档的轮廓系数;
ai为该文档与其所属簇中其他文档之间的平均距离;
bi为该文档与其他簇的平均距离的最小值;
确定所述文档集合所包含文档的轮廓系数平均值为利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数。
5.如权利要求2所述的方法,其特征在于,从所述文档集合中选择K1个文档作为初始聚类中心点,具体包括:
对于所述文档集合包含的每一文档,确定该文档的局部密度;
针对每一文档,确定该文档与局部密度大于该文档的文档之间的最小距离;
分别以所述文档集合中包含的每一文档对应的局部密度及其与局部密度大于自身的文档之间的最小距离为坐标描绘二维图;
根据与坐标轴组成矩形的面积由大到小的顺序,选择前K1个文档作为初始聚类中心。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410822832.1/1.html,转载请声明来源钻瓜专利网。