[发明专利]基于内容的藏文网站唐卡图像搜索引擎智能机器人搜索方法无效

专利信息
申请号: 200710097846.1 申请日: 2007-04-20
公开(公告)号: CN101290619A 公开(公告)日: 2008-10-22
发明(设计)人: 戴玉刚;王维兰;唐仕喜;马国柱;曹晖;刘华明 申请(专利权)人: 西北民族大学
主分类号: G06F17/30 分类号: G06F17/30;G06K9/46
代理公司: 暂无信息 代理人: 暂无信息
地址: 730030甘*** 国省代码: 甘肃;62
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于内容的藏文网站唐卡图像搜索引擎智能机器人搜索方法属于图像内容的搜索引擎领域,其特征在于提出了W.M.A的搜索方案:将唐卡检索样本图像分块,对每个子块进行小波帧包分解得各子带信道,计算各子块与子块之间的距离,将距离差值小于阈值的距离值归为同类并标号,用二元量形成匹配对列表和颜色对直方图,采用直方图方法进行匹配;以知识库和图像数据库为后台,与藏文文本特征相结合,构建适合于藏文网站和唐卡图像本身特征的、基于多任务的多线程模式唐卡图像搜索引擎智能机器人搜索方法。本发明在基于内容的藏文网站唐卡图像搜索引擎系统中自动搜索唐卡图像,并自动进行相似分类,查全率依据经验统计达到89.6%。
搜索关键词: 基于 内容 藏文 网站 图像 搜索引擎 智能 机器人 搜索 方法
【主权项】:
1.基于内容的藏文网站唐卡图像搜索引擎智能机器人搜索方法,其特征是:采用基于W.M.A的算法,以唐卡图像数据库、知识库为后台,以多线程的方式唐卡图像搜索引擎智能机器人搜索方法。W.M.A方法的特征是:能从“相似”的唐卡图像中找出差异,通过小波帧包分析挖掘出了“相似”中的“不同”,同时又通过欧氏距离保证了“不同”间的“相似”,再辅以累计直方图保证比较的“连续性”,从而达到了优良的检索效果。具体为:首先将唐卡图像分块,分成的子块具有400-600个左右的像素。为了更好地获取图像的局部信息,再对每一个子块进行小波帧包分解,将低频段和高频段同时进行分解,得到一系列小波包,与小波帧分解相结合得到以下小波帧包分解基函数{Wi n}(其中i=0~∞,n=0~2i+1-1)为:W2ni+1(l)=2Σkh(k)W2ni(l-2ik)W2n+1i+1(l)=2Σkg(k)W2ni(l-2ik)其中,h(k)为低通滤波器系数,g(k)为满足完全重构条件的高通滤波器系数,W0 0(1)为尺度函数,W0 1(1)为母小波,i为尺度因子,n为振荡系数。现有唐卡图像的颜色信息表达为3维RGB空间上的向量。为提取有用的颜色特征,往往需要将RGB空间变换成其它颜色空间。虽然HSV变换非常适于人眼的视觉特性,然而,这类变换却容易产生一些难以去除的奇异值,因而不适于进一步的变换及特征提取。为克服HSV变换的上述缺点,对彩色空间进行Karhunen-Loeve变换:k1k2k3=0.3330.3330.3330.5000.000-0.500-0.5001.000-0.500·RGB.K-L变换将图像空间变换为正交空间,产生在统计特性上是不相关的3个分量,变换不会产生奇异值。经K-L变换以后,分量k1代表信号的亮度或强度,k2和k3分别与色度有关。在K-L空间上,每个分量都经小波帧分解,分别分解为4个子带信道。为避免不必要的全域分解,将能量e2=1MNΣj=1NΣi=1M|xi,j-mean(xij)|(M,N分别为子带图像的宽与高,mean()表示取均值)作为是否对每一个子带信道需作进一步分解的衡量标准。把k1的能量作为确定小波帧树型分解结构的尺度,令e2 max,k1 为k1的4个子带信道中能量最大者,T为预先设定的常量,若k1的子带信道i(i=1~4)的能量e2 i,k1满足e2 i,k1≥e2 max,k1则信道i中含有重要的信息,信道i被进一步分解,否则信道i不再被进一步分解。在每一次小波帧分解后,令某一分辨率下某个子带的系数为{dk im,n}(i=1~3,m∈[1,M],n∈[1,N]),则对每一个子带信道提取以下特征:Ckikj=Σm=1NΣn=1M|(dm,nki-mean(dm,nki))·(dm,nki-mean(dm,nki))|当i=j时,ckikj对应于k1(纹理)、k2、k3(颜色)的方差,而当i≠j时,Ckikj对应于纹理与颜色的相关性。为去除冗余,对Ckikj进行如下的归一化处理:Ckikj=Ckikj,i=jCkikjCkikj·Ckikj*ij计算每个子块与周围8个相邻子块之间的距离尺度:Di=Σi=1k(fiqfi+fifiq-2)fq 1和fi分别为样本图像和待定图像的第i个特征,k为特征总数,Di由迭代计算得到。Di值越大表示子块的差距越明显,越能反映图像的特征。计算每个子块与周围8个Di的距离平均值Dav,取远小于距离平均值Dav的距离值(Dav*5%)作为阈值,将距离差值小于阈值的距离值归为同类,并对距离值进行标号,用二元量(相邻子块距离的序号k,该距离的匹配对个数nk)形成匹配对列表。这样产生了一个反映子块颜色直方图差别的颜色对直方图:横轴表示距离值标号,纵轴表示具有这一距离值的颜色匹配对个数。由于颜色对直方图是一种人为的标号量化过程,为克服量化的主观性,我们采用累积直方图,这是一个1-D离散函数:I(k)=Σk=0L-1nkN,k=0,1,···,L-1其中k为距离排序后的标号,L为最大标号,nk为该距离(标号)下的匹配对个数,N为匹配对总数。有了颜色对累积直方图,就可以借助颜色对累积直方图的距离来进行匹配检索。实验证明,基于L1 范数或直方图相交方法的效果更好,我们采用直方图匹配法进行检索:ME(Q,D)=Σk=0L-1[IQ(k)-ID(k)]2ME(Q,D)为欧氏距离函数。为了防止计算量过大,我们可以将L映射到某一区间例如[0,255],映射公式为:k=[kL×255],k=0,1,···,L-1[]表示取整合并L′=255k′=0,1,…,L′-1藏文图像内容搜索引擎采用Spider程序进行构造。构造时采用基于多任务的多线程池模式,即采用非递归的设计方案,Spider程序在发现每个新网页或图像URL时,它将使用一个不调用自身的方法,而是使用多线程池。为得到Spider程序的处理,每一个新发现的网页或图像URL放入多线程池。给定Spider程序一个要访问的网页或图像URL,把这一网页或图像URL加入到它的多线程池中去;当Spider程序发现新的网页或图像URL时,把它们加入到多线程池;当Spider程序处理完当前的URL,在多线程池中查找要处理的下一URL。基于内容的藏文网站唐卡图像搜索引擎智能机器人主体由多线程池循环模块构成。多线程池循环模块是基于内容的藏文网站唐卡图像搜索引擎智能机器人的主控模块,负责在网络上循环搜索唐卡图像。唐卡图像搜索引擎智能机器人同时也就是知识库专家系统中的推理机,与知识库专家系统成为一体,以线程池的方式工作,多个Agent相互协作,这对提高机器人的搜索效率有着重要的作用。采用CstringArray的方式存放各种要处理的数据:typedef struct{ CStringArray arrLinks; CStringArray arrMedia; CByteArray arrOffsite; int nIndex;}LINKS;多线程池循环模块是基于内容的藏文网站唐卡图像搜索引擎智能机器人的主控模块,负责在网络上循环搜索唐卡图像,其具体用到的主要函数如下: static UINT DownloadThread(LPVOID lpvData); //唐卡图像下载多线程函数BOOL MatchTangKa(CString&strMedia); //唐卡图像匹配函数 BOOL ShouldQueuePage(CString& strNewPage,BOOL bOffsite);//判断网页是否进入队列函数void FixupLinks();//链接修复函数void ResetLink(int nLevel);//链接重置函数void SetMediaCacheEntry(LPCTSTR lpszMedia,LPCTSTR lpszFileName);//唐卡图像入口函数BOOL GetMedia(CString& strMedia,CString& strFileName);//获取唐卡图像函数BOOL ShouldGetMedia(CString& strMedia,MAP_FILES*& pMapEntry);//判断是否获取唐卡图像函数BOOL ShouldGetPage(CString& strPage,MAP_FILES*& pMapEntry);//判断是否获取网页函数BOOL GetPage(CString& strPage,CString& strFileName,LINKS& linkEntry);//获取网页函数void SetPageCacheEntry(LPCTSTR lpszPage,LPCTSTR lpszFileName,int nLevel);//网页入口函数void ClearCacheMaps();//清除缓存函数根据输入的URL建立多IP数组线程;依据各个IP建立各自的多线程;各个多线程完成每个IP的唐卡图像搜索;通过多线程池,反复,至规定宽度与深度页面全部搜索完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北民族大学,未经西北民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200710097846.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top