[发明专利]一种面向物联网的基于语义聚类的物资信息检索方法有效
申请号: | 201310290805.X | 申请日: | 2013-07-11 |
公开(公告)号: | CN103425740A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 叶宁;赵婷婷;王汝传;林巧民;王忠勤 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏爱信律师事务所 32241 | 代理人: | 唐小红 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 联网 基于 语义 物资 信息 检索 方法 | ||
1.一种面向物联网的基于语义聚类的物资信息检索方法,其特征在于该检索方法包括语义分析、关键词提取、优先数分配、PML归一化、层次聚类模块,具体步骤为:
步骤1)用户在Web应用平台上输入所要检索物资的相关信息;
步骤2)语义分析的任务就是自动地、批量地对Web页面进行分析,并自动
提取领域的语义信息,采用先对Web内容进行预处理,去除网页内的噪音的方法,以提高语义分析提取信息的速度和精度,具体的语义分析过程如下:
步骤21:对Web页面输入的文本进行噪音清洗处理,就是去除与网页主题无关的内容;
步骤22:对经过噪音清洗的Web页面进行预处理,把相关的内容文本进行短句、词性划分;
步骤23:从经过预处理后的文本中识别出重点词,即文本中基本的信息元素,这些重点词识别依据是现存的人工参与制定的规则;
步骤24:在整个文本中找出个体事实之间的引用和关联关系,通过分析同一事实在文本中不同部分的不同描述,合并相同的实体,整合出更大粒度的信息点,即下一步需要的关键词: ;
步骤3)为了减少不必要的重复聚类,进一步提高检索效率,根据现有的词频统计资料,经过相互比较,为词频最低的关键词分配优先数为1,然后依次确定各个层级的关键词的优先数,假设关键词个数为n,具体过程如下:
步骤31:根据已有资料统计各关键词的词频;
步骤32:采用冒泡排序的第一趟算法,两两比较相邻关键词的词频,从而
得到词频的最小值,对该关键词赋予优先数1;
步骤33:重复步骤32,为剩下的关键词分别分配优先数2,3,…,n;
步骤4)根据得到的优先数,按照优先数由大到小的顺序依次将各关键词归一化为PML格式的文件,作为与电子产品代码信息服务EPCIS管理下的数据库进行数据通信的基础;
步骤5)在数据库中采用凝聚层次聚类的方式对数据进行聚类,相似度区间划分为51%--100%、0—50%;最终结果以文件夹和子文件夹的形式展现在用户检索的页面上,文件夹以可变长度的句子命名,具体算法如下:
步骤51:按照上述归一化的顺序,第一个生成的PML描述的关键词作为第一层聚类的特征值,将各原子簇的属性和关键词进行比较,根据相似度分别将它们合并到同一相似度区间的簇中;
步骤52:将得到结果中的每个簇作为整体放入对应的文件夹中,文件夹以聚类采用的关键词及相似度区间共同命名,即“关键词+相似度区间”,所有文件以并列的形式存在;
步骤53:将第二个生成的PML描述的关键词作为第二层聚类的特征值,将步骤52所得的文件名为“关键词+51%--100%”文件夹中的各数据作为原子簇,重复步骤51中聚类过程;
步骤54:将步骤53所得的结果放入按照步骤52的命名原则得到的相应新文件夹中;
步骤55:按照顺序依次对上一步生成的文件进行聚类,每次都是对文件名为“关键词+51%--100%”的文件夹进行新的聚类,直到最后一个关键词聚类完为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310290805.X/1.html,转载请声明来源钻瓜专利网。