==== Análise biologicamente inspirada da incidência do problema da abertura em cenas naturais ==== \\ Lucas Pinto [[lucasmpinto@yahoo.com.br]]\\ PG - Fisiologia e Biofísica - ICB/UFMG\\ Trabalho final em pdf:{{:cursos:visao:2008-1:grupo06:TP_final_LucasPinto_engl.pdf|trabalho final}}\\ Apresentação em pdf:{{:cursos:visao:2008-1:grupo06:apresentacao_TP_LucasPinto.pdf|apresentacao}} **1. Revisão da literatura** O movimento é, provavelmente, a mais importante e poderosa dimensão da visão. Praticamente tudo que é de interesse no mundo visual se move. Estímulos que compartilham aproximadamente da mesma velocidade e direção são vistos como uma unidade, uma figura, que é facilmente segregada do fundo, de acordo com o fator Gestalt de destino comum (Spillmann, 1999). Por exemplo, um animal que está perfeitamente camuflado enquanto fica parado irá aparecer logo que se mover. Assim, o movimento pode juntar estímulos que estão amplamente distribuídos pelo campo visual, sobrepujando a proximidade e similaridade como fatores de agrupamento perceptual.\\ Entretanto, a implementação neural da associação inequívoca de um objeto a seu movimento não é uma tarefa trivial, já que depende da solução de dois problemas complementares: a integração de contornos em movimento pertencentes a um mesmo objeto e a segregação do movimento de objetos distintos (Grossberg et al., 1999). Esses problemas, por sua vez, são corolários do chamado problema da abertura (aperture problem), que surge devido à natureza dos campos receptores do córtex visual primário (Fennema & Thompson, 1979; Marr & Ullman, 1981). Em mamíferos e em corujas, grande parte desses neurônios apresenta pelo algum grau de seletividade para direção do movimento (Hubel & Wiesel, 1962, 1968; Pettigrew, 1979; Baron et al., 2007). No entanto, seus campos receptores são tipicamente pequenos. Assim, os sinais locais individuais de movimento codificados por esses neurônios são, freqüentemente, inerentemente ambíguos, já que a direção de movimento à qual determinada célula responde é sempre ortogonal à orientação do contorno (Henry et al., 1974; Schiller et al., 1976), e pode diferir da direção global de movimento do objeto. De alguma forma, essas ambigüidades precisam ser resolvidas para que as operações de integração e segmentação sejam realizadas adequadamente.\\ Diversas evidências psicofísicas e eletrofisiológicas sugerem que o processamento do movimento visual ocorre em pelo menos dois estágios (Movshon et al., 1985, Albright & Stoner, 1995). Em mamíferos, o primeiro deles ocorreria no córtex visual primário, cujos ambíguos sinais locais de movimento seriam transmitidos a uma outra área, onde ocorreria um processo subseqüente de integração/segregação no espaço e no tempo, para formar uma percepção de movimento globalmente coerente. Acredita-se que esse segundo nível de análise ocorre em áreas corticais visuais hierarquicamente superiores, como a área temporal medial (MT) em primatas (Movshon et al., 1985; Rodman & Albright, 1989) e córtex visual ectosilviano anterior (VEA) em gatos (Scannel et al., 1996). Contudo, ainda não se conhece o mecanismo neural de integração. Na verdade, nem mesmo se sabe inequivocamente se esses dois ou mais estágios são realmente necessários para uma percepção integrada do movimento visual (van Wezel & van der Smagt, 2003; Singer, 2004; Majaj et al., 2007).\\ De fato, o problema da abertura não é universal nas áreas visuais primárias, já que características não orientadas de um estímulo, tais como quinas e terminações de contornos, podem estar presentes no campo receptor de um neurônio. Teoricamente, tais características bidimensionais de um estímulo podem conter informações não ambíguas acerca de seu movimento (Pack, 2001; Pack et al., 2003). Na prática, existe um subgrupo de células do córtex visual primário que possui características adequadas para a utilização dessas pistas bidimensionais: as células end-stopped, que respondem melhor a terminações de linhas que estão em seu campo receptor (Hubel & Wiesel, 1968). Em um estudo recente, Pack et al. (2003) demonstraram que essa sub-população de neurônios é capaz de sinalizar o movimento de um estímulo, independente de sua orientação – ou seja, resolvem o problema da abertura.\\ Embora haja demonstrações experimentais tanto da ocorrência do problema da abertura quanto da sua resolução por uma sub-população celular da área visual primária, ainda não se conhece a proporção e contribuição relativa desses dois fenômenos à sinalização de movimento nessa área. Na verdade, não se conhece mesmo a incidência relativa de contornos e terminações de cenas naturais em movimento vistas através de aberturas do tamanho de campos receptores, já que a grande maioria dos trabalhos utiliza imagens sintéticas. É provável que essas duas coisas estejam intimamente relacionadas: acredita-se que, por meio de mecanismos filo e ontogenéticos, os sistemas sensoriais são adaptados ao processamento de informações presentes no meio em que vivem (Simoncelli & Olshausen, 2001; Geisler, 2008). No caso específico da visão, os mecanismos de computação neuronal teriam sido determinados pela estrutura estatística das cenas naturais (Simoncelli & Olshausen, 2001; Geisler, 2008). Dessa forma, o conhecimento da estrutura de cenas visuais pode ser bastante elucidativo dos mecanismos neuronais subjacentes a um dado processo perceptual. Por isso, a proposta do presente trabalho é analisar a incidência de bordas e terminações em seqüências de cenas naturais vistas através de aberturas que simulam o tamanho e a distribuição dos campos receptores dos neurônios do córtex visual primário. **2.Metodologia** //Aquisição dos filmes//\\ As imagens serão adquiridas a uma taxa de 25 quadros/segundo, com resolução de 720 x 480 pixels em escala de cinza, com foco e balanço de branco automáticos, no formato “.avi”, utilizando uma câmera Sony Handycam modelo DCR-TRV8E, com as seguintes especificações:\\ Tipo: Camcorder\\ Sensor: CCD 800 Kpixels\\ Resolução efetiva: 400 Kpixels\\ Tipo de mídia: Mini DV\\ Lentes: Carl Zeiss, zoom óptico 10x, distância focal: 3.3 - 33 mm\\ Serão feitos diversos filmes de curta duração (4 s) de cenas consideradas pelos autores como representativas de cenas naturais sob iluminação ambiente não-controlada, divididas em dois grupos: ambientes urbanos (prédios, carros etc.) e ambientes naturais (folhagens, vegetações rasteiras com animais etc.). As imagens serão adquiridas em três tipos de configuração: movimento de objetos da cena com a câmera estática; cena estática ou semi-estática com a câmera em movimento translacional puro; e movimento de objetos da cena associado ao movimento translacional da câmera. Em cada caso, será escolhido um objeto de referência a partir do qual serão feitos filmes de pelo menos quatro distâncias diferentes (tipicamente 0,5, 2, 10 e 20 metros), de modo a permitir a avaliação da influência da distância da cena sobre a incidência relativa de bordas e quinas na imagem. //Detecção de bordas e quinas//\\ Todos os quadros dos filmes serão submetidos ao detector de bordas e quinas de Harris (Harris & Stephens, 1988), que será programado e executado em Matlab (The Mathworks, Cambridge, MA, EUA). Resumidamente, o algoritmo consiste em: 1) Cálculo das derivadas parciais da imagem em x e y:   2) Em seguida, para uma dada janela de convolução gaussiana w dada por:  Calcula-se uma matriz de covariância 2x2 simétrica da forma  Onde    Procede-se, então, ao cálculo dos autovalores, λ1 e λ2, da matriz. A partir desses dois valores, detecta-se uma borda, quina ou campo uniforme, segundo as relações: λ1 ≈ λ2 ≈ 0 indica ausência de covariância, que por sua vez indica que a dada região é uniforme; λ1 >> λ2 ≈ 0 indica a presença de uma borda, pela covariância em apenas uma dimensão; λ1 > λ2 > 0 indica a presença de uma quina, em virtude de uma covariância nas duas dimensões. Na prática, o valor zero é substituído por um limar τ definido pelo usuário. //Tamanho da imagem e janela de convolução//\\ Será analisada apenas uma janela circular das imagens com 480 pixels de diâmetro, de modo a simular a forma do campo de visão de humanos. Suporemos uma relação entre o número de pixels e grau de ângulo visual, tal que a imagem inteira eqüivalha a 120˚, que é o tamanho aproximado do campo de visão binocular (Arditi, 1986 apud van der Willigen, 2000). Assim, cada grau de ângulo visual corresponderá a quatro pixels.\\ O tamanho da janela de convolução (w) variará de acordo com a posição do pixel, de forma a simular a mudança de tamanho dos campos receptores do córtex visual primário de primatas respeitando sua visuotopia (fator de magnificação). Em macacos rhesus e Cebus sp., a representação de regiões do campo visual não é uniforme: os 10˚ centrais do campo visual ocupam cerca da metade da superfície do córtex visual primário (Daniel & Witteridge, 1961; Gattass et al., 1987). Além disso, os campos receptores aumentam de tamanho do centro para a periferia seguindo uma relação logarítmica (Daniel & Witteridge, 1961; Gattass et al., 1987).\\ //Dados e análise estatística//\\ Para cada filme, os campos serão classificados em três categorias que se relacionam ao problema da abertura: 1) campo uniforme, se essa for a saída do algoritmo para uma dada região da imagem em todos quadros; 2) borda, se uma borda estiver presente em uma dada região da imagem em pelo menos 2 quadros, em posições diferentes, e não houver quinas em nenhum deles; e 3) quina, se uma quina estiver presente em pelo menos 2 quadros, em posições diferentes. Além disso, será quantificada, para uma dada região da imagem, a incidência, em número de quadros, de bordas, quinas, ou campos uniformes. As contagens entre as diferentes categorias para cada um dos tipos e configurações de filmes, bem como para cada localização (e tamanho) de janela de convolução, serão comparadas por meio do teste exato de Fisher. A incidência relativa de bordas e quinas (em número de quadros e quantidade de tempo) será comparada por meio de teste t de Student e/ou ANOVA no caso de distribuição normal (determinada pelo teste de normalidade de Lilliefors) ou seus equivalentes não-paramétricos, teste U de Mann-Whitney e teste de Kruskal Wallis, no caso de ausência de distribuição normal. O nível de significância considerado para todos os testes será de 0,05. As análises serão realizadas em Matlab (The Mathworks, Cambridge, MA, EUA) e R (www.r-project.org).\\ Implementação do detector de bordas e quinas de Harris com kernel de tamanho variável e imagem circular:{{:cursos:visao:2008-1:grupo06:vharris.m|:cursos:visao:2008-1:grupo06:vharris.m}}\\ Outros algoritmos utilizados:{{:cursos:visao:2008-1:grupo06:circmask.m|:cursos:visao:2008-1:grupo06:circmask.m}}{{:cursos:visao:2008-1:grupo06:runframes.m|:cursos:visao:2008-1:grupo06:runframes.m}} **3. Resultados preliminares**\\ Exemplo do output do algoritmo vharris para uma única imagem:\\ {{:cursos:visao:2008-1:grupo06:vharris_example.jpg|:cursos:visao:2008-1:grupo06:vharris_example.jpg}}\\ Exemplo do output para uma sequência de imagens sintéticas (quadrado branco se movendo contra um fundo preto), utilizada para testes:\\ {{:cursos:visao:2008-1:grupo06:fig1.jpg|:cursos:visao:2008-1:grupo06:fig1.jpg}} **4. Referências bibliográficas** Albright, T.D. & Stoner, G.R. (1995) Visual motion perception. Proc.Natl.Acad.Sci.U.S.A, 92, 2433-2440.\\ Baron, J., Pinto, L., Dias, M. O., Lima, B. & Neuenschwander, S. (2007) Directional responses of visual wulst neurons to grating and plaid patterns in the awake owl. Eur. J. Neurosci., 26, 1950-1968.{{:cursos:visao:2008-1:grupo06:Baron_2007_Eur_J_Neurosci.pdf|:cursos:visao:2008-1:grupo06:Baron_2007_Eur_J_Neurosci.pdf}}\\ Daniel, P.M. & Witteridge, D. (1961) The representation of the visual field on the cerebral cortex in monkeys. J Physiol (Lond), 159, 203-221.\\ Fennema, C. & Thompson, W.B. (1979) Velocity determination in scenes containing several moving images. Comput.Graphics Image Process, 9, 301-315.\\ Gattass, R., Sousa, A.P., & Rosa, M.G. (1987) Visual topography of V1 in the Cebus monkey. J Comp Neurol, 259(4), 529-548.\\ Geisler, W.S. (2008) Visual perception and the statistical properties of natural scenes. Ann. Rev. Psychol., 59, 167-192.\\ Grossberg, S., Mingolla, E. & Pack, C. (1999) A neural model of motion processing and visual navigation by cortical area MST. Cereb.Cortex, 9, 878-895. Harris, C. & Stephens, M. (1988) A combined corner and edge detector. Proceedings of the 4th Alvey Vision Conference, 147-151.\\ Henry, G.H., Bishop, P.O. & Dreher, B. (1974) Orientation, axis and direction as stimulus parameters for striate cells. Vision Res., 14, 767-777.\\ Hubel, D.H. & Wiesel, T.N. (1962) Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. J.Physiol, 160, 106-154. Hubel, D.H. & Wiesel, T.N. (1968) Receptive fields and functional architecture of monkey striate cortex. J.Physiol, 195, 215-243.\\ Majaj, N.J., Carandini, M. & Movshon, J.A. (2007) Motion integration by neurons in macaque MT is local, not global. J.Neurosci. , 27, 366-370.\\ Marr, D. & Ullman, S. (1981) Directional selectivity and its use in early visual processing. Proc.R.Soc.Lond B Biol.Sci., 211, 151-180.\\ Movshon, J. A., Adelson, E. H., Gizzi, M. S., and Newsome, W. T (1985). The analysis of moving visual patterns. In: Chagas, C., Gattass, R., and Gross, C. (eds). Pattern recognition mechanisms. Pontificiae Academiae Scientiarvm Scripta Varta, 54, 117-151.\\ Pack, C.C. (2001) The aperture problem for visual motion and its solution in primate cortex. Sci Prog, 84, 255-266.\\ Pack, C.C., Livingstone, M., Duffy, K.R. & Born, R.T. (2003) End-stopping and the aperture problem: two-dimensional motion signals in macaque V1. Neuron, 39, 671-680.\\ Pettigrew, J.D. (1979) Binocular visual processing in the owl's telencephalon. Proceedings of the Royal Society of London, 204, 435-454.\\ Rodman, H.R. & Albright, T.D. (1989) Single-unit analysis of pattern-motion selective properties in the middle temporal visual area (MT). Exp.Brain Res., 75, 53-64.\\ Scannell, J.W., Sengpiel, F., Tovee, M.J., Benson, P.J., Blakemore, C. & Young, M.P. (1996) Visual motion processing in the anterior ectosylvian sulcus of the cat. J.Neurophysiol., 76 , 895-907.\\ Schiller, P.H., Finlay, B.L. & Volman, S.F. (1976) Quantitative studies of single-cell properties in monkey striate cortex. II. Orientation specificity and ocular dominance. J.Neurophysiol., 39, 1320-1333.\\ Simoncelli, E.P. & Olshausen, B.A. (2001) Natural image statistics and neural representation. Ann. Rev. Neurosci., 24, 1193-1216.\\ Singer, W. (2004) Synchrony, oscillations and relational codes. In Chalupa,L.M. & Werner,J.S. (eds), The Visual Neurosciences. A Bradford Book, The MIT Press, Cambrige, MA, pp. 1665-1681.\\ Spillmann, L. (1999) From elements to perception: local and global processing in visual neurons. Perception, 28, 1461-1492.\\ van der Willigen, R. (2000) On the perceptual identity of depth vision in the owl. Tese de Doutorado. Universidade de Aachen, Alemanha, 155 pp.\\ van Wezel, R.J. & van der Smagt, M.J. (2003) Motion processing: how low can you go? Curr.Biol., 13, R840-R842.\\ Exemplos online do problema da abertura: [[http://www.liv.ac.uk/~marcob/Trieste/aperture.html|Aperture]] [[http://www.aceviper.net/Optical2/barber_pole_illusion.htm|Barber pole illusion]]