A invenção proposta visa codificar informações contextuais para análise e compreensão de vídeo, codificando relações espaciais e temporais de objetos e o agente principal em uma cena.