时间:2022-12-04 12:55:59 | 栏目:Python代码 | 点击:次
基于内容的图像检索技术是采用某种算法来提取图像中的特征,并将特征存储起来,组成图像特征数据库。当需要检索图像时,采用相同的特征提取技术提取出待检索图像的特征,并根据某种相似性准则计算得到特征数据库中图像与待检索图像的相关度,最后通过由大到小排序,得到与待检索图像最相关的图像,实现图像检索。图像检索的结果优劣取决于图像特征提取的好坏,在面对海量数据检索环境中,我们还需要考虑到图像比对(图像相似性考量)的过程,采用高效的算法快速找到相似图像也至关重要。
在构建图像特征库的时候,通常不会使用原始的图像特征,这是由于Raw Feature有很多冗余信息,而且维度过高在构建特征数据库和匹配的时候效率较低。所以,通常要对提取到的原始特征进行重新编码。比较常用的三种编码方式:
构建图像特征数据库,通常有以下几个步骤:
图像的特征库构建完成后,在检索阶段,主要涉及到特征的相似性度量准则,排序,搜索
SIFT特征的讲解已经很多了,之前的博客也有过介绍。本文就借助vlfeat
对SIFT特征的提取过程做一个总结。
一个SIFT特征有两部分组成:关键点(keypoint)和对应特征描述子(Descriptor)。使用SIFT detector
进行SIFT关键点的提取,然后使用SIFT descriptor
计算关键点的描述子。也可以独立的使用SIFT detector
进行SIFT 关键点的提取,或者使用SIFT descriptor
进行别的关键点描述子的计算。
一个SIFT keypoint是一块圆形区域并且带有方向,使用4个参数描述该区域的几何结构:
一个SIFT关键点由4个参数确定:
在Lowe的算法实现中\(\sigma_0 = 1.6,o_min = -1\)。\(o_min = -1\)表示金字塔的第0组是原图像上采样得到的,宽和高加一倍。
高斯图像金字塔构建完成后,将同一组的相邻两层相减就得到了\(DoG\)金字塔。
每组的层数\(S = 3\),也就是说每组可以得到两层的\(DoG\)图像,以第一组为例:其尺度为\(\sigma,k\sigma\),只有两项是无法求取极值的,需要左右两边都有尺度。由于无法比较取得极值,那么我们就需要继续对每组的图像进行高斯模糊,使得尺度形成\(\sigma,k\sigma,k^2\sigma,k^3\sigma,k^4\sigma\)这样就可以选择中间的三项\(k\sigma,k^2\sigma,k^3\sigma\)
检测关键点,就是在\(DoG\)的图像空间中寻找极值点,每个像素点要和其图像域(同一尺度空间)和尺度域(相邻的尺度空间)的所有相邻点进行比较,当其大于(或者小于)所有相邻点时,改点就是极值点。如图所示,中间的检测点要和其所在图像的\(3 \times 3\)邻域8个像素点,以及其相邻的上下两层的\(3\times 3\)领域18个像素点,共26个像素点进行比较。
删除不好的极值点
删除两类极值点
确定关键点的方向
统计关键点邻域像素的梯度方向分布来确定关键点的方向。具体步骤如下:
得到特征点的主方向后,对于每个特征点可以得到三个信息\(k(x,y,r,\theta)\),即位置、尺度和方向。由此可以确定一个SIFT特征区域,一个SIFT特征区域由三个值表示,中心表示特征点位置,半径表示关键点的尺度,箭头表示主方向。
具有多个方向的关键点可以被复制成多份,然后将方向值分别赋给复制后的特征点,一个特征点就产生了多个坐标、尺度相等,但是方向不同的特征点。
计算关键点描述子
在检测部分已经得到了SIFT关键点的位置,尺度和方向信息,生成关键点的描述子,就是使用一个向量来描述关键点及其邻域像素的信息。
由以下步骤生成描述子:
每个块的梯度直方方向直方图的计算方式,和求关键点主方向时类似:此时每个区域的梯度直方图在0-360之间划分为8个方向区间,每个区间为45度,即每个种子点有8个方向的梯度强度信息,最后将得到的\(4\times4\times8=128\)维的特征向量。
vlfeat
是一个开源的轻量级的计算机视觉库,主要实现图像局部特征的提取和匹配以及一些常用的聚类算法。其对sift特征提取的各个步骤进行了封装,使用的方法如下:
1.调用vl_sift_new
初始化VlSiftFilt
,设置sift提取时参数信息,如:图像的大小,Octave的个数,每个Octave的中的层数,起始的Octave的index. 各个参数的具体含义可以参考上面sift特征提取的方法。
2.设置剔除不稳定关键点的阈值。在上面提到,sift在进行极值检查后,要剔除两类不稳定的极值点:1.对比度较低区域的极值点;2.边缘部分的极值点。 可以调用
vl_sift_set_peak_thresh
设置接受极值点是一个关键点的最小对比度。 该值越小,提取到的关键点就越多。y vl_sift_set_edge_thresh()
设置一个极值点是在边缘上的阈值。 该值越小,提取到的关键点就越多。这两个参数对最终提取到的特征点个数有很大的影响。
3.初始化工作完成后,可以循环的对尺度空间的每个Octave进行处理了
vl_sift_process_first_octave()
和vl_sift_process_next_octave()
来计算下一个DoG尺度空间。vl_sift_detect
进行关键点提取vl_sift_calc_keypoint_orientations
计算关键点的方向,可能多于一个
l_sift_calc_keypoint_descriptor
计算每个方向的特征描述子。
4.vl_sift_delete
释放资源。
具体代码如下:
// 初始化 const string file = "../0.jpg"; Mat img = imread(file,IMREAD_GRAYSCALE); Mat color_img = imread(file); Mat float_img; img.convertTo(float_img,CV_32F); int rows = img.rows; int cols = img.cols; VlSiftFilt* vl_sift = vl_sift_new(cols,rows,4,3,0); vl_sift_set_peak_thresh(vl_sift,0.04); vl_sift_set_edge_thresh(vl_sift,10); vl_sift_pix *data = (vl_sift_pix*)(float_img.data); vector<VlSiftKeypoint> kpts; vector<float*> descriptors; vl_sift_extract(vl_sift,data,kpts,descriptors); /* Extract sift using vlfeat parameters: vl_sfit, VlSiftFilt* data , image pixel data ,to be convert to float kpts, keypoint list descriptors, descriptor. Need to free the memory after using. */ void vl_sift_extract(VlSiftFilt *vl_sift, vl_sift_pix* data, vector<VlSiftKeypoint> &kpts,vector<float*> &descriptors) { // Detect keypoint and compute descriptor in each octave if(vl_sift_process_first_octave(vl_sift,data) != VL_ERR_EOF){ while(true){ vl_sift_detect(vl_sift); VlSiftKeypoint* pKpts = vl_sift->keys; for(int i = 0; i < vl_sift->nkeys; i ++) { double angles[4]; // 计算特征点的方向,包括主方向和辅方向,最多4个 int angleCount = vl_sift_calc_keypoint_orientations(vl_sift,angles,pKpts); // 对于方向多于一个的特征点,每个方向分别计算特征描述符 // 并且将特征点复制多个 for(int i = 0 ; i < angleCount; i ++){ float *des = new float[128]; vl_sift_calc_keypoint_descriptor(vl_sift,des,pKpts,angles[0]); descriptors.push_back(des); kpts.push_back(*pKpts); } pKpts ++; } // Process next octave if(vl_sift_process_next_octave(vl_sift) == VL_ERR_EOF) { break ; } } } }
vlfeat中sift提取接受的是float
类型的数据,所以要先将读到的数据图像转换为float
。
和OpenCV中的sift提取的对比结果如下:
几年前写过一篇关于SIFT的文章,SIFT特征详解 当时多是从理论上。现在在做图像检索的时候,发现还是有很多东西理解的不是很清晰,比如:关键点的多个方向,不稳定极值点的剔除以及梯度方向直方图计算等等。
正在做一个图像检索的项目,陆续将项目的中学到一些知识总结下来,下一篇是关于均值聚类的,对提取到的图像特征进行聚类生成视觉特征(Visul Feature)