Um novo doutor no grupo: Carlos Antônio Caetano Júnior defendeu sua tese

Carlos Antônio Caetano Júnior defendeu sua tese “Motion-based Representations for Activity Recognition”, obtendo o título de Doutor pelo Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Minas Gerais (UFMG), com período sanduíche em Centre de Recherche Inria Sophia Antipolis – Méditerranée (Orientador: François Brémond).

O reconhecimento da atividade humana desempenha um papel fundamental em várias aplicações do mundo real que vão desde a busca de vídeos, como pesquisar vídeos que contêm atividades específicas, até sistemas de vigilância em ambientes que exigem um alto nível de segurança. Em vista disso, o reconhecimento de atividades tornou-se um tema bastante pesquisado pela comunidade científica. Durante a última década, uma parcela significativa do progresso em reconhecimento de atividades foi alcançada graças ao desenvolvimento de representações discriminativas conhecidas como descritores de características. Tais representações são geralmente baseadas na aparência, análise de movimento ou informação de pose. Atualmente, os esforços têm sido direcionados para o desenvolvimento de redes neurais convolucionais para aprendizagem de tais representações. Essas abordagens aprendem camadas hierárquicas de representações para realizar o reconhecimento de padrões e têm demonstrado resultados efetivos na tarefa de reconhecimento de atividades.

Na tese defendia, quatro representações distintas baseadas em informações de movimento são propostas para o reconhecimento de atividades. A primeira é um descritor de características espaço-temporal que extrai um conjunto robusto de medidas estatísticas para descrever padrões de movimento medindo propriedades significativas em matrizes de co-ocorrência e capturando características espaço-temporais do movimento através da magnitude e orientação do fluxo ótico. A segunda contribuição é a proposta de uma nova representação intermediária (mid-level) compacta baseada em matrizes de co-ocorrência de palavras visuais. Essa representação expressa a distribuição das características em um dado deslocamento utilizando um dicionário visual pré-calculado, codificando assim estruturas globais de várias características baseadas em regiões locais. A terceira contribuição, é a proposta de um novo fluxo temporal para redes convolucionais de dois fluxos (two-streams) baseado em imagens calculadas a partir da magnitude e orientação do fluxo ótico. O método aplica transformações não lineares nos componentes vertical e horizontal do fluxo ótico para gerar imagens de entrada para o fluxo temporal. Por fim, a quarta contribuição é uma representação de esqueleto para ser usada como entrada para redes convolucionais. A abordagem codifica a dinâmica temporal calculando de forma explícita os valores de magnitude e orientação das articulações do esqueleto. Além disso, a representação tem a vantagem de combinar o uso de “juntas de referência” e um algoritmo de árvore de esqueleto, incorporando assim diferentes relações espaciais entre as juntas e preservando importantes relações espaciais. Os experimentos realizados em bases de dados desafiadoras e bastante conhecidas sobre reconhecimento de atividades (KTH, UCF Sports, HMDB51, UCF101 NTU RGB+D 60 e NTU RGB+D 120) demonstram que as representações propostas obtiveram resultados melhores ou similares em comparação ao estado da arte, indicando a adequação das abordagens para serem usadas como representações de vídeo.

Comissão examinadora

O professor William Robson Schwartz, coordenador do Smart Sense Laboratory, orientou a pesquisa de doutorado de Carlos Caetano. A comissão examinadora foi composta pelos professores Prof. Jefersson Alex dos Santos – Coorientador (DCC – UFMG), Prof. Erickson Rangel do Nascimento (DCC – UFMG), Prof. João Paulo Papa (FC – Unesp), Prof. David Menotti Gomes (DInf – UFPR) e Prof. Anderson de Rezende Rocha (IC – UNICAMP).

Currículo do pesquisador

Doutor em Ciência da Computação na Universidade Federal de Minas Gerais (UFMG) e pesquisador no Smart Surveillance Interest Group – SSIG/DCC/ICEx/UFMG. Desenvolveu parte dos estudos do doutorado no Centre de Recherche INRIA Sophia Antipolis, França (bolsa CNPq), como pesquisador no time STARS (sob orientação do Dr. François Brémond). Mestre em Ciência da Computação pela Universidade Federal de Minas Gerais (UFMG). Bacharel em Sistemas de Informação pela Pontifícia Universidade Católica de Minas Gerais (PUC Minas). Durante o mestrado, fez parte do Núcleo de Processamento Digital de Imagens (NPDI/DCC/ICEx/UFMG) como pesquisador. Durante a graduação, fez parte do programa de iniciação científica da PUC Minas como bolsista CNPq participando como pesquisador do Laboratório de Processamento de Informação Áudio-Visual (VIPLAB). Possui experiência de pesquisa em Visão Computacional, Processamento Digital de Imagens e Vídeos, Classificação de Imagens e Vídeos, Descritores de Características de Imagens e Vídeos, Representação de Imagens e Sumarização Automática de Vídeos.