Content-Based Image Retrieval

Os mecanismos da visão humana, tais como entendimento ou reconhecimento, não são plenamente entendidos pela ciência, conseqüentemente tais mecanismos ainda estão precariamente implementados computacionalmente. Por esta razão, a visão computacional é um ramo fértil, no qual há ainda muito o que pesquisar. No campo de recuperação de imagens baseada em conteúdo, o esforço de pesquisa tem sido crescente. Datta [1] fez um apanhado geral do estado da arte na área de CBIR (Content-Based Image Retrieval) no começo do século XXI.

Pode-se discriminar três correntes na área de CBIR: Extração de Características (Feature Extraction), Abordagens de Recuperação (Approches to Retrieval) e Detecção de Conceitos e Anotações (Annotation and Concept Detection).

Extração de Características: Este é geralmente o pré-processamento de um sistema CBIR. Essa extração analisa características como cores, formas, texturas. Na extração de cores, pode-se usar um sistema de comparação de cores em múltiplas dimensões. Deng [2] propôs um método de divisão da imagem em regiões através de cores dominantes, e efetuar a comparação a partir daí. Este método foi mostrado ser mais rápido que a comparação normal de histogramas, por tratar-se de uma simplificação. Hadjidemetriou [3] usou imagens de diferentes resoluções para estimar a textura através do histograma de cores. A normalização gaussiana do histograma pode fazer a análise de histograma de cores obter melhores resultados que o histograma uniformizado, conforme mostrado por Jeong [4]. A distribuição gaussiana foi aplicada também a características de textura por Do e Vetterli [5]. A forma é uma das características mais relevantes das imagens para fins de recuperação. A discretização dos contornos para inferir forma foi usada por Lateki e Lakamper [6]. A programação dinâmica foi proposta para fazer casamento de formas por Petrakis [7]. Mikolajczyk [8] usa características invariantes para fazer a recuperação de imagens, já Tian [9] usa pontos de saliência baseados em “wavelets”. De uma maneira geral, a escolha do método de extração de características é arbitrário em um CBIR, não havendo recomendação geral, mas sim escolhas que se encaixem melhor às necessidades do sistema.

Abordagens de Recuperação de Imagens: Uma vez decidido o método de extração de características, tem-se uma métrica de comparação. Usando essa métrica, várias abordagens de casamento das imagens resultado com a query de pesquisa podem ser consideradas. Uma forma simples e eficiente é tentar uma classificação semântica como propôs Wang [10], separando imagens de natureza diferentes, como gráficos e fotos, por exemplo. O casamento de imagens baseado em clusterização de regiões foi proposto por Du e Wang [11]. Recuperação de imagens baseada em regiões foi estendida para usar nebulosidade na recuperação de imagens no trabalho de Chen e Wang [12]. Um casamento baseado em cores e texturas em comum foi proposto por Carson [13] para recuperar imagens diferentes com objetos semelhantes. Iqbal e Aggarwal [14] utilizam-se de grupos de imagens para extrair características de relacionamento entre elas, a fim de obter novas imagens do grupo. Blocos fractais foram demonstrados serem bons na recuperação de imagens descritas por textura no trabalho de Mandal e Basu [15]. Métodos probabilísticos foram propostos por Jin e Hauptmann [16] e por Vasconcelos e Lippman [17]. Neste último, redes Bayesianas são utilizadas, o que aumenta muito o custo computacional do sistema CBIR. Vasconcelos [18] propõe uma otimização na performance do último. Esta etapa completa o CBIR, recuperando imagens que espera-se estarem relacionadas com a pesquisa proposta ao sistema CBIR.

Detecção de Conceitos e Anotações: Outras duas abordagens diferentes dos sistemas CBIR normais são a detecção de conceitos, que tenta extrair características visuais de imagens, e anotações, que trilha o caminho inverso, recuperando imagens através da carga semântica da query de busca que consiste em palavras. Esses dois campos não são menos desafiadores que o CBIR clássico. Vailaya [19] alcançou grande exatidão na implementação de detecção de conceitos simples como cidade, pôr-do-sol, floresta em bancos de imagens. Comaniciu e Meer [20] estenderam esse sistema com um mecanismo de aprendizagem de novos conceitos. Dong e Bhanu [21] fizeram um sistema de aprendizagem dinâmica iterativo baseado no feedback com o usuário. Já o problema da anotação foi implementado similarmente a algoritmos de tradução no trabalho de Duygulu [22]. Métodos estatísticos hierárquicos aplicados ao problema da anotação foram tratados por Barnard [23] e Blei e Jordan [24]. Ainda mais do que o CBIR clássico, os métodos automáticos de detecção de conceitos e anotações são ficam muito aquém do que o ser humano é capaz de fazer, por se tratarem de problemas intrinsecamente difíceis de tratar.

[1] R. Datta, Jia Li, James Wang. “Content-Based Image Retrieval – Approaches and Trends of the New Age,”. The Pennsylvania State University, University Park, PA, USA. 2005.

[2] Y. Deng, B. S. Manjunath, C. Kenney, M. S. Moore, and H. Shin, “An Efficient Color Representation for Image Retrieval,” IEEE Trans. Image Processing, 10(1):140–147, 2001.

[3] E. Hadjidemetriou, M. D. Grossberg, and S. K. Nayar, “Multiresolution Histograms and Their Use for Recognition,” IEEE Trans. Pattern Analysis and Machine Intelligence, 26(7):831–847, 2004.

[4] S. Jeong, C. S. Won, and R.M. Gray, “Image retrieval using color histograms generated by Gauss mixture vector quantization,” Computer Vision and Image Understanding, 9(1–3):44–66, 2004.

[5] M. N. Do and M. Vetterli, “Wavelet-Based Texture Retrieval Using Generalized Gaussian Density and Kullback-Leibler Distance,” IEEE Trans. Image Processing, 11(2):146–158, 2002.

[6] L.J. Latecki and R. Lakamper, “Shape Similarity Measure Based on Correspondence of Visual Parts,” IEEE Trans. Pattern Analysis and Machine Intelligence, 22(10):1185–1190, 2000.

[7] E. G. M. Petrakis, A. Diplaros, and E. Milios, “Matching and Retrieval of Distorted and Occluded Shapes Using Dynamic Programming,” IEEE Trans. Pattern Analysis and Machine Intelligence, 24(4):509–522, 2002.

[8] K. Mikolajczyk and C. Schmid, “Scale and Affine Invariant Interest Point Detectors,” International Journal of Computer Vision, 60(1):63–86, 2004.

[9] Q. Tian, N. Sebe, M. S. Lew, E. Loupias, and T. S. Huang, “Image retrieval using wavelet-based salient points,” Journal of Electronic Imaging, 10(4):835–849, 2001.

[10] J.Z. Wang, J. Li, and G. Wiederhold, “SIMPLIcity: Semantics-Sensitive Integrated Matching for Picture Libraries,” IEEE Trans. Pattern Analysis and Machine Intelligence, 23(9), 947–963, 2001

[11] Y. Du and J. Z. Wang “A Scalable Integrated Region-Based Image Retrieval System,” Proc. IEEE International Conference on Image Processing, 2001.

[12] Y. Chen and J. Z. Wang, “A Region-Based Fuzzy Feature Matching Approach to Content-Based Image Retrieval,” IEEE Trans. Pattern Analysis and Machine Intelligence,

[13] C. Carson, S. Belongie, H. Greenspan, and J. Malik, “Blobworld: Image Segmentation Using Expectation-maximization and Its Application to Image Querying,” IEEE Trans. Pattern Analysis and Machine Intelligence, 24(8):1026-1038, 2002.

[14] Q. Iqbal and J. K. Aggarwal, “Retrieval by Classification of Images Containing Large Manmade Objects Using Perceptual Grouping,” Pattern Recognition Journal, 35(7):1463–1479, 2002.

[15] M. Pi, M. K. Mandal, and A. Basu, “Image Retrieval Based on Histogram of Fractal Parameters,” IEEE Trans. Multimedia, 7(4):597–605, 2005.

[16] R. Jin and A.G. Hauptmann, “Using a Probabilistic Source Model for Comparing Images,” Proc. IEEE International Conference on Image Processing, 2002.

[17] N. Vasconcelos and A. Lippman, “A Probabilistic Architecture for Content-based Image Retrieval,” Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2000.

[18] N. Vasconcelos, “On the Efficient Evaluation of Probabilistic Similarity Functions for Image Retrieval,” IEEE Trans. Information Theory, 50(7):1482–1496, 2004.

[19] A. Vailaya, M. A. T. Figueiredo, A. K. Jain, and H.-J. Zhang, “Image Classification for Content-Based Indexing,” IEEE Trans. Image Processing, 10(1):117–130, 2001.

[20] D. Comaniciu and P. Meer, “Mean Shift: A Robust Approach Toward Feature Space Analysis,” IEEE Trans. Pattern Analysis and Machine Intelligence, 24(5), 603–619, 2002.

[21] A. Dong and B. Bhanu, “Active Concept Learning for Image Retrieval in Dynamic Databases,” Proc. IEEE International Conference on Computer Vision, 2003.

[22] P. Duygulu, K. Barnard, N. de Freitas, and D. Forsyth. “Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary,” In Seventh European Conference on Computer Vision, pages 97–112, 2002.

[23]K. Barnard, P. Duygulu, D. Forsyth, N. de Freitas, D. M. Blei, and M. I. Jordan, “Matching Words and Pictures,” Journal of Machine Learning Research, 3:1107-1135, 2003.

[24] D. M. Blei and M. I. Jordan, “Modeling Annotated Data,” Proc. ACM Conference on Research and Development in Information Retrieval, 2003