Enciclopédia / Modelos
Multimodal
IA capaz de trabalhar com mais de um tipo de conteúdo, como texto, imagem, áudio e vídeo.
Explicação para leigos
Um sistema multimodal entende ou gera diferentes formatos de informação. Isso permite tarefas como analisar uma imagem e responder em texto.
Exemplo prático
Você pode enviar a foto de uma nota fiscal e pedir que a IA extraia dados importantes para uma planilha.
Erros comuns
- Achar que multimodal significa perfeito em todos os formatos.
- Enviar imagens com dados sensíveis sem política.
- Não validar extrações feitas a partir de documentos.
Termos relacionados
- Modelo Generativo
- Texto para Imagem
- OCR
