Sumarização Automática de Vídeos Baseada em Características de Cor e Agrupamentos

Sandra Eliza Fontes de Avila sandra@dcc.ufmg.br
Pós-graduação em Ciência da Computação
1º semestre / 2008

Introdução

Os avanços em técnicas de compressão, a diminuição no custo de equipamentos para aquisição e armazenamento vídeo e, ainda, a disponibilidade de meios de transmissão de dados em alta velocidade, têm facilitado a forma como os vídeos são criados, armazenados e distribuídos. Como conseqüência, os vídeos passaram a ser utilizados em várias aplicações. Devido ao aumento na quantidade de vídeos distribuídos e utilizados em aplicações atuais, a pesquisa e o desenvolvimento de novas tecnologias são necessários para um gerenciamento mais eficiente destes dados. Entre as diversas áreas possíveis de pesquisa, a sumarização automática de vídeos é uma etapa essencial para inúmeras aplicações de vídeos, tais como indexação, navegação e recuperação por conteúdo [28].

Sumarização de vídeo é o processo de extração de um resumo do conteúdo original do vídeo, cujo objetivo é fornecer rapidamente a informação concisa do conteúdo do vídeo, preservando a mensagem do vídeo original [25]. Recentemente, o resumo automático de vídeos tem atraído o interesse dos pesquisadores devido ao seu potencial comercial em diversas aplicações. Como conseqüência, novos modelos e algoritmos têm sido propostos na literatura da área.

Segundo [19, 28], os tipos de resumos gerados, a partir das técnicas de sumarização automática de vídeos, podem ser classificados em duas categorias principais: keyframes ou video skim. A primeira categoria, também conhecida como representative frames, still-image abstracts ou static storyboard, consiste na extração de um conjunto de quadros-chave do vídeo original, resultando em resumos estáticos. Já a segunda categoria, também conhecida como moving-image abstract, moving storyboard ou summary sequence, coleta um conjunto de tomadas¹⁾ através de análise da similaridade ou da relação temporal entre os quadros, resultando em resumos dinâmicos. Uma vantagem do uso de resumos dinâmicos é a possibilidade de incluir elementos de áudio e movimentos realçando assim, tanto a expressividade quanto a informação presente no vídeo. Além disso, segundo [19], geralmente é mais interessante para o usuário assistir a um resumo em vídeo, resumo dinâmico, do que ver um conjunto de imagens, resumo estático. Por outro lado, os resumos estáticos permitem ao usuário acessar o conteúdo do vídeo de forma não-linear, pois uma vez que os quadros-chave tenham sido extraídos, existem diversas maneiras de visualizá-los além da seqüência restrita observada nos resumos dinâmicos, como demonstrado em [2, 10, 11, 22]. Estas formas podem permitir ao usuário obter uma compreensão mais rápida do conteúdo do vídeo. Neste trabalho, o método proposto para a sumarização de vídeo está voltado para a produção de resumos estáticos.

Na literatura, diferentes técnicas para gerar resumos estáticos têm sido propostas [3, 7, 12, 13, 15, 24, 32], sendo que a maioria delas baseiam-se em técnicas de agrupamentos (clustering). Para esta técnica, a idéia é produzir resumos através do agrupamento de quadros/tomadas similares e apresentar um número limitado de quadros por agrupamento (na maioria dos casos, é selecionado um quadro por agrupamento). Nesta abordagem, é importante selecionar o tipo das características que serão utilizadas para representar os quadros (por exemplo, distribuição de cores, vetores de movimento, textura, forma) e medir a similaridade entre eles.

Apesar das técnicas existentes produzirem resumos com qualidade aceitável, elas geralmente utilizam técnicas de agrupamentos complicadas que são computacionalmente caras e requerem um alto consumo de tempo [8]. Por exemplo, em [24] o tempo necessário para a produção de um resumo leva cerca de 10 vezes a duração do vídeo. De fato, não parece razoável que um usuário tenha que esperar 20 minutos para ter uma representação concisa de um vídeo que ele poderia ter assistido em apenas dois minutos.

Neste trabalho é proposta uma abordagem simples e eficiente para a sumarização automática de vídeos. O método é baseado na extração das características de baixo-nível das imagens (utilizando o espaço de cor RGB) e no algoritmo de agrupamento k-means [23]. Os testes foram realizados em uma amostra de 20 vídeos extraídos do Open Video Project [1]. Os resumos produzidos foram avaliados através de usuários e também foram comparados com os resumos do Open Video. Os resultados mostraram que o método proposto é uma solução alternativa para o problema da sumarização automática de vídeos.

O artigo está organizado como se segue. Na Seção 2 são apresentados os trabalhos relacionados. A metodologia proposta é descrita na Seção 3. Na Seção 4, os resultados experimentais são discutidos. E por fim, as conclusões e os trabalhos futuros são apresentados na Seção 5.

Arquivos

Artigo: :cursos:visao:2008-1:grupo10:grupo10_artigo.pdf
Apresentação: :cursos:visao:2008-1:grupo10:grupo10_apresentacao.ppt

Referências Bibliográficas

[1] The Open Video Project. http://www.open-video.org.
[2] J. Ćalić, D. P. Gibson, and N. W. Campbell. Efficient layout of comic-like video summaries. IEEE Transactions on Circuits and Systems and Video Technology, 17(7):931–936, 2007.
[3] I.-C. Chang and K.-Y. Chen. Content-selection based video summarization. Digest of Technical Papers International Conference on Consumer Electronics (ICCE), pages 1–2, 2007.
[4] C. Cotsaces, N. Nikolaidis, and L. Pitas. Video shot detection and condensed representation: A review. IEEE Signal Processing Magazine, 23(2):28–37, 2006.
[5] R. O. Duda, P. E. Hart, and D. G. Stork. Pattern Classification, chapter Unsupervised Learning and Clustering, page 654. Springer-Verlag New York, Inc., 2001.
[6] F. Dufaux. Key frame selection to represent a video. In Proceedings of the IEEE International Conference on Image Processing (ICIP), volume 2, pages 275–278, 2000.
[7] M. Furini, F. Geraci, M. Montangero, and M. Pellegrini. Visto: visual storyboard for web video browsing. In Proceedings of the ACM International Conference on Image and Video Retrieval (CIVR), pages 635–642, 2007.
[8] M. Furini, F. Geraci, M. Montangero, and M. Pellegrini. On using clustering algorithms to produce video abstracts for the web scenario. In Proceedings of the IEEE Consumer Communication and Networking (CCNC), pages 1112–1116. IEEE Communication Society, January 2008.
[9] F. Geraci, M. Pellegrini, P. Pisati, and F. Sebastiani. A scalable algorithm for high-quality clustering of web snippets. In Proceedings of the ACM Symposium on Applied Computing (SAC), pages 1058–1062, 2006.
[10] A. Girgensohn. A fast layout algorithm for visual video summaries. In Proceedings of the International Conference on Multimedia and Expo (ICME), pages 77–80, Washington, DC, USA, 2003. IEEE Computer Society.
[11] A. Girgensohn, J. Boreczky, and L.Wilcox. Keyframe-based user interfaces for digital video. IEEE Computer, 34(9):61–67, 2001.
[12] Y. Gong and X. Liu. Video summarization using singular value decomposition. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), pages 2174–2180, Los Alamitos, CA, USA, 2000. IEEE Computer Society.
[13] Y. Hadi, F. Essannouni, and R. O. H. Thami. Video summarization by k-medoid clustering. In Proceedings of the ACM Symposium on Applied Computing (SAC), pages 1400–1401, New York, NY, USA, 2006.
[14] R. I. Hammoud. Interactive Video Algorithms and Technologies. Springer Berlin Heidelberg, 2006.
[15] A. Hanjalic and H. Zhang. An integrated scheme for automated video abstraction based on unsupervised cluster-validity analysis. IEEE Transactions on Circuits and Systems for Video Technology, 9(8):1280–1289, 1999.
[16] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: A review. ACM Computer Surverys, 31(3):264–323, 1999.
[17] R. Jain. The Art of Computer Systems Performance Analysis. John Wiley and Sons, Inc., 1992.
[18] I. Koprinska and S. Carrato. Temporal video segmentation: a survey. Signal Processing: Image Communication, 16(5):477–500, 2001.
[19] Y. Li, T. Zhang, and D. Tretter. An overview of video abstraction techniques. Technical report, HP Laboratory, HP-2001-191, July 2001.
[20] Z. Li, K. Katsaggelos, and B. Gandhi. Temporal ratedistortion based optimal video summary generation. In Proceedings of the IEEE International Conference on Multimedia and Expo (ICME), pages 693–696, Washington, DC, USA, 2003.
[21] Z. Li, G. M. Schuster, and A. K. Katsaggelos. Minmax optimal video summarization. IEEE Transactions on Circuits and Systems and Video Technology, 15(10):1245–1256, 2005.
[22] X. Liu, T. Mei, X.-S. Hua, B. Yang, and H.-Q. Zhou. Video collage. In Proceedings of the ACM International Conference on Multimedia, pages 461–462, 2007.
[23] J. B. MacQueen. Some methods for classification and analysis of multivariate observations. In L. M. L. Cam and J. Neyman, editors, Proceedings of The Berkeley Symposium on Mathematical Statistics and Probability, volume 1, pages 281–297. University of California Press, 1967.
[24] P. Mundur, Y. Rao, and Y. Yesha. Keyframe-based video summarization using Delaunay clustering. International Journal on Digital Libraries, 6(2):219–232, 2006.
[25] S. Pfeiffer, R. Lienhart, S. Fischer, and W. Effelsberg. Abstracting digital movies automatically. Technical report, University of Mannheim, 1996.
[26] J. Rong, W. Jin, and L.Wu. Key frame extraction using intershot information. In Proceedings of the IEEE International Conference on Multimedia and Expo (ICME), pages 571–574, 2004.
[27] Y. Tonomura, A. Akutsu, K. Otsuji, and T. Sadakata. Videomap and videospaceicon: Tools for anatomizing video content. In Proceedings of the INTERCHI Conference on Human Factors in Computing Systems, pages 131–136, Amsterdam, The Netherlands, 1993. IOS Press.
[28] B. T. Truong and S. Venkatesh. Video abstraction: A systematic review and classification. ACM Transactions on Multimedia Computing, Communications, and Applications, 3(1), 2007.
[29] H. Ueda, T. Miyatake, and S. Yoshizawa. Impact: an interactive natural-motion-picture dedicated multimedia authoring system. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pages 343–350. ACM Press, 1991.
[30] I. Yahiaoui, B. Mérialdo, and B. Huet. Automatic video summarization. In Multimedia Content-Based Indexing and Retrieval (MCBIR), 2001.
[31] H. J. Zhang, J. Wu, D. Zhong, and S. W. Smoliar. An integrated system for content-based video retrieval and browsing. Pattern Recognition, 30(4):643–658, 1997.
[32] Y. Zhuang, Y. Rui, T. S. Huang, and S. Mehrotra. Adaptive key frame extraction using unsupervised clustering. In Proceedings of the IEEE International Conference on Image Processing (ICIP), volume 1, pages 866–870, 1998.

¹⁾ Uma tomada pode ser definida como uma seqüência de imagens que apresenta uma ação contínua no tempo e no espaço que foi capturada por uma única câmera.

cursos/visao/2008-1/grupo10/index.txt · Última modificação: 2008/06/18 12:09 (edição externa)