Enciclopédia / Modelos

Multimodal

IA capaz de trabalhar com mais de um tipo de conteúdo, como texto, imagem, áudio e vídeo.

Explicação para leigos

Um sistema multimodal entende ou gera diferentes formatos de informação. Isso permite tarefas como analisar uma imagem e responder em texto.

Exemplo prático

Você pode enviar a foto de uma nota fiscal e pedir que a IA extraia dados importantes para uma planilha.

Erros comuns

  • Achar que multimodal significa perfeito em todos os formatos.
  • Enviar imagens com dados sensíveis sem política.
  • Não validar extrações feitas a partir de documentos.

Termos relacionados

  • Modelo Generativo
  • Texto para Imagem
  • OCR