[发明专利]基于内容的藏文网站唐卡图像搜索引擎智能机器人搜索方法无效
申请号: | 200710097846.1 | 申请日: | 2007-04-20 |
公开(公告)号: | CN101290619A | 公开(公告)日: | 2008-10-22 |
发明(设计)人: | 戴玉刚;王维兰;唐仕喜;马国柱;曹晖;刘华明 | 申请(专利权)人: | 西北民族大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/46 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 730030甘*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内容 藏文 网站 图像 搜索引擎 智能 机器人 搜索 方法 | ||
1.基于内容的藏文网站唐卡图像搜索引擎智能机器人搜索方法,其特征是:采用基于W.M.A的算法,以唐卡图像数据库、知识库为后台,以多线程的方式唐卡图像搜索引擎智能机器人搜索方法。
W.M.A方法的特征是:能从“相似”的唐卡图像中找出差异,通过小波帧包分析挖掘出了“相似”中的“不同”,同时又通过欧氏距离保证了“不同”间的“相似”,再辅以累计直方图保证比较的“连续性”,从而达到了优良的检索效果。具体为:
首先将唐卡图像分块,分成的子块具有400-600个左右的像素。为了更好地获取图像的局部信息,再对每一个子块进行小波帧包分解,将低频段和高频段同时进行分解,得到一系列小波包,与小波帧分解相结合得到以下小波帧包分解基函数{Win}(其中i=0~∞,n=0~2i+1-1)为:
其中,h(k)为低通滤波器系数,g(k)为满足完全重构条件的高通滤波器系数,W00(1)为尺度函数,W01(1)为母小波,i为尺度因子,n为振荡系数。
现有唐卡图像的颜色信息表达为3维RGB空间上的向量。为提取有用的颜色特征,往往需要将RGB空间变换成其它颜色空间。虽然HSV变换非常适于人眼的视觉特性,然而,这类变换却容易产生一些难以去除的奇异值,因而不适于进一步的变换及特征提取。为克服HSV变换的上述缺点,对彩色空间进行Karhunen-Loeve变换:
K-L变换将图像空间变换为正交空间,产生在统计特性上是不相关的3个分量,变换不会产生奇异值。经K-L变换以后,分量k1代表信号的亮度或强度,k2和k3分别与色度有关。
在K-L空间上,每个分量都经小波帧分解,分别分解为4个子带信道。为避免不必要的全域分解,将能量
在每一次小波帧分解后,令某一分辨率下某个子带的系数为{dkim,n}(i=1~3,m∈[1,M],n∈[1,N]),则对每一个子带信道提取以下特征:
当i=j时,ckikj对应于k1(纹理)、k2、k3(颜色)的方差,而当i≠j时,Ckikj对应于纹理与颜色的相关性。为去除冗余,对Ckikj进行如下的归一化处理:
计算每个子块与周围8个相邻子块之间的距离尺度:
fq1和fi分别为样本图像和待定图像的第i个特征,k为特征总数,Di由迭代计算得到。Di值越大表示子块的差距越明显,越能反映图像的特征。
计算每个子块与周围8个Di的距离平均值Dav,取远小于距离平均值Dav的距离值(Dav*5%)作为阈值,将距离差值小于阈值的距离值归为同类,并对距离值进行标号,用二元量(相邻子块距离的序号k,该距离的匹配对个数nk)形成匹配对列表。这样产生了一个反映子块颜色直方图差别的颜色对直方图:横轴表示距离值标号,纵轴表示具有这一距离值的颜色匹配对个数。
由于颜色对直方图是一种人为的标号量化过程,为克服量化的主观性,我们采用累积直方图,这是一个1-D离散函数:
其中k为距离排序后的标号,L为最大标号,nk为该距离(标号)下的匹配对个数,N为匹配对总数。
有了颜色对累积直方图,就可以借助颜色对累积直方图的距离来进行匹配检索。实验证明,基于L1范数或直方图相交方法的效果更好,我们采用直方图匹配法进行检索:
ME(Q,D)为欧氏距离函数。为了防止计算量过大,我们可以将L映射到某一区间例如[0,255],映射公式为:
L′=255k′=0,1,…,L′-1
藏文图像内容搜索引擎采用Spider程序进行构造。构造时采用基于多任务的多线程池模式,即采用非递归的设计方案,Spider程序在发现每个新网页或图像URL时,它将使用一个不调用自身的方法,而是使用多线程池。为得到Spider程序的处理,每一个新发现的网页或图像URL放入多线程池。给定Spider程序一个要访问的网页或图像URL,把这一网页或图像URL加入到它的多线程池中去;当Spider程序发现新的网页或图像URL时,把它们加入到多线程池;当Spider程序处理完当前的URL,在多线程池中查找要处理的下一URL。
基于内容的藏文网站唐卡图像搜索引擎智能机器人主体由多线程池循环模块构成。多线程池循环模块是基于内容的藏文网站唐卡图像搜索引擎智能机器人的主控模块,负责在网络上循环搜索唐卡图像。唐卡图像搜索引擎智能机器人同时也就是知识库专家系统中的推理机,与知识库专家系统成为一体,以线程池的方式工作,多个Agent相互协作,这对提高机器人的搜索效率有着重要的作用。采用CstringArray的方式存放各种要处理的数据:
typedef struct
{
CStringArray arrLinks;
CStringArray arrMedia;
CByteArray arrOffsite;
int nIndex;
}LINKS;
多线程池循环模块是基于内容的藏文网站唐卡图像搜索引擎智能机器人的主控模块,负责在网络上循环搜索唐卡图像,其具体用到的主要函数如下:
static UINT DownloadThread(LPVOID lpvData);
//唐卡图像下载多线程函数
BOOL MatchTangKa(CString&strMedia);
//唐卡图像匹配函数
BOOL ShouldQueuePage(CString& strNewPage,BOOL bOffsite);
//判断网页是否进入队列函数
void FixupLinks();
//链接修复函数
void ResetLink(int nLevel);
//链接重置函数
void SetMediaCacheEntry(LPCTSTR lpszMedia,LPCTSTR lpszFileName);
//唐卡图像入口函数
BOOL GetMedia(CString& strMedia,CString& strFileName);
//获取唐卡图像函数
BOOL ShouldGetMedia(CString& strMedia,MAP_FILES*& pMapEntry);
//判断是否获取唐卡图像函数
BOOL ShouldGetPage(CString& strPage,MAP_FILES*& pMapEntry);
//判断是否获取网页函数
BOOL GetPage(CString& strPage,CString& strFileName,LINKS& linkEntry);
//获取网页函数
void SetPageCacheEntry(LPCTSTR lpszPage,LPCTSTR lpszFileName,int nLevel);//网页入口函数
void ClearCacheMaps();//清除缓存函数
根据输入的URL建立多IP数组线程;依据各个IP建立各自的多线程;各个多线程完成每个IP的唐卡图像搜索;通过多线程池,反复,至规定宽度与深度页面全部搜索完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北民族大学,未经西北民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710097846.1/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法