Apresentação de artigo na main track: Skeleton Image Representation for 3D Action Recognition based on Tree Structure and Reference Joints
[/trx_title]
Apresentação de artigo na main track: Skeleton Image Representation for 3D Action Recognition based on Tree Structure and Reference Joints, por Carlos Caetano.
32nd Conference on Graphics, Patterns and Images SIBGRAPI 2019.
28 a 31 de Outubro | Rio de Janeiro.
Nos últimos anos, a comunidade de pesquisa em visão computacional estudou como modelar a dinâmica temporal em vídeos para o reconhecimento da ação humana em 3D. Para esse fim, duas abordagens principais foram pesquisadas:
(i) Redes Neurais Recorrentes (RNNs) com Memória de Longo Prazo (LSTM);
(ii) representações de imagens esqueléticas usadas como entrada para uma Rede Neural Convolucional (CNN).
Embora as abordagens da RNN apresentem excelentes resultados, esses métodos não têm a capacidade de aprender com eficiência as relações espaciais entre as articulações do esqueleto. Por outro lado, as representações usadas para alimentar as abordagens da CNN apresentam a vantagem de ter a capacidade natural de aprender informações estruturais a partir de matrizes 2D (isto é, elas aprendem relações espaciais a partir das articulações do esqueleto).
Para melhorar ainda mais essas representações, apresentamos a Imagem de Articulações de Referência de Estrutura de Árvore (TSRJI), uma nova representação de imagem de esqueleto a ser usada como entrada nas CNNs.
A representação proposta tem a vantagem de combinar o uso de juntas de referência e um esqueleto de estrutura de árvore. Enquanto o primeiro incorpora diferentes relações espaciais entre as juntas, o último preserva importantes relações espaciais atravessando uma árvore esquelética com um algoritmo de profundidade de primeira ordem.
Resultados experimentais demonstram a eficácia da representação proposta para o reconhecimento de ações 3D em dois conjuntos de dados, alcançando resultados de ponta no recente conjunto de dados NTU RGB + D ~ 120.