[trx_title align=”center” color=”#000000″ top=”null”]

Apresentação de artigo na main track: Skeleton Image Representation for 3D Action Recognition based on Tree Structure and Reference Joints

[/trx_title]

Apresentação de artigo na main track: Skeleton Image Representation for 3D Action Recognition based on Tree Structure and Reference Joints, por Carlos Caetano.

32nd Conference on Graphics, Patterns and Images SIBGRAPI 2019.

28 a 31 de Outubro | Rio de Janeiro.

Nos últimos anos, a comunidade de pesquisa em visão computacional estudou como modelar a dinâmica temporal em vídeos para o reconhecimento da ação humana em 3D. Para esse fim, duas abordagens principais foram pesquisadas:

(i) Redes Neurais Recorrentes (RNNs) com Memória de Longo Prazo (LSTM);

(ii) representações de imagens esqueléticas usadas como entrada para uma Rede Neural Convolucional (CNN).

Embora as abordagens da RNN apresentem excelentes resultados, esses métodos não têm a capacidade de aprender com eficiência as relações espaciais entre as articulações do esqueleto. Por outro lado, as representações usadas para alimentar as abordagens da CNN apresentam a vantagem de ter a capacidade natural de aprender informações estruturais a partir de matrizes 2D (isto é, elas aprendem relações espaciais a partir das articulações do esqueleto).

Para melhorar ainda mais essas representações, apresentamos a Imagem de Articulações de Referência de Estrutura de Árvore (TSRJI), uma nova representação de imagem de esqueleto a ser usada como entrada nas CNNs.

A representação proposta tem a vantagem de combinar o uso de juntas de referência e um esqueleto de estrutura de árvore. Enquanto o primeiro incorpora diferentes relações espaciais entre as juntas, o último preserva importantes relações espaciais atravessando uma árvore esquelética com um algoritmo de profundidade de primeira ordem.

Resultados experimentais demonstram a eficácia da representação proposta para o reconhecimento de ações 3D em dois conjuntos de dados, alcançando resultados de ponta no recente conjunto de dados NTU RGB + D ~ 120.