Resumo
Os humanos lidam constantemente com informações multimodais, ou seja, conjuntos de dados de diferentes modalidades, como texto e imagens. Para as máquinas processarem a informação de forma semelhante aos humanos, elas devem ser capazes de processar dados multimodais e compreender a relação conjunta entre essas modalidades, não apenas texto ou imagens de forma isolada, por exemplo. Esse as…