Enciclopédia / Modelos

Multimodal

IA capaz de trabalhar com mais de um tipo de conteúdo, como texto, imagem, áudio e vídeo.

Explicação para leigos

Um sistema multimodal entende ou gera diferentes formatos de informação. Isso permite tarefas como analisar uma imagem e responder em texto.

Exemplo prático

Você pode enviar a foto de uma nota fiscal e pedir que a IA extraia dados importantes para uma planilha.

Erros comuns

Achar que multimodal significa perfeito em todos os formatos.
Enviar imagens com dados sensíveis sem política.
Não validar extrações feitas a partir de documentos.

Termos relacionados

Modelo Generativo
Texto para Imagem
OCR