[发明专利]一种领域本体的构建方法和装置有效

申请号：	201410822832.1	申请日：	2014-12-24
公开（公告）号：	CN105786898B	公开（公告）日：	2019-04-05
发明（设计）人：	黄毅;周文辉;冯俊兰;李明洋;张鹏	申请（专利权）人：	中国移动通信集团公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘
地址：	100032 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种领域本体构建方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种领域本体构建方法，其特征在于，包括：

提取文档集合包含的每一文档的特征信息；

根据提取的特征信息，利用聚类算法对所述文档集合包含的文档进行聚类得到K₁个簇，其中K₁为正整数；

从得到的簇中提取至少一个领域概念，针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇；

分别从所述正例簇和负例簇中选择预设数量的文档，根据选择出的文档确定文档分类器；

利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合，判断所述第二类文档集合中包含的文档数量是否低于预设值；

如果所述第二类文档集合包含的文档数量不低于预设值时，根据各文档对应的特征信息，利用聚类算法对所述第二类文档集合包含的文档进行聚类得到K₂个簇，并返回执行从得到的簇中提取至少一个领域概念，针对聚类得到的每一个簇根据其是否属于提取的领域概念划分为正例簇和负例簇，分别从正例簇和负例簇中选择预设数量的文档，根据选择出的文档确定文档分类器，利用确定出的文档分类器将未被选择的文档分类为属于提取的领域概念的第一类文档集合和不属于提取的领域概念的第二类文档集合的步骤，直至所述第二类文档集合中的文档数量低于预设值，其中K₂为正整数。

2.如权利要求1所述的方法，其特征在于，根据提取的特征信息，利用聚类算法对所述文档集合包含的文档进行聚类得到K₁个簇，具体包括：

从所述文档集合中选择K₁个文档作为初始聚类中心点；

将所述文档集合包含的每一文档与其距离最近的初始聚类中心点划分为同一簇；

对于得到的每一个簇，确定该簇的中心点作为新的聚类中心点；并

根据所述文档集合包含的每一文档与新的聚类中心点之间的最近距离将所述文档集合包含的文档重新划分为K₁个簇；

针对得到的每一个簇重复执行确定该簇的中心点作为新的聚类中心点，并根据所述文档集合包含的每一文档与新的聚类中心点之间的最近距离将所述文档集合包含的文档重新划分为K₁个簇的步骤，直至得到的每一个簇包含的文档不再变化。

3.如权利要求1所述的方法，其特征在于，按照以下方法确定K1：

分别利用预先设定的K₁的取值范围内包含的每一数值对所述文档集合包含的文档进行聚类；

针对所述取值范围内的每一数值，确定利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数；

确定与最大轮廓系数对应的数值为K₁。

4.如权利要求3所述的方法，其特征在于，针对所述取值范围内的每一数值，确定利用该数值对所述文档集合包含的文档进行聚类得到的聚类结果对应的轮廓系数，具体包括：

针对所述取值范围内的每一数值，针对利用该数值对所述文档集合包含的文档进行聚类得到的每一个簇所包含的每一文档，按照以下公式确定该文档的轮廓系数：其中：