O ChatGPT inaugura uma nova era na indústria de inteligência artificial generativa. Com o sucesso do ChatGPT, surgiram cada vez mais ferramentas de inteligência artificial. Nos últimos anos, a Microsoft tomou medidas para melhorar as ferramentas generativas de IA. No entanto, o ChatGPT é um modelo de linguagem baseado em texto, que não possui os mesmos recursos do DALL-E 2 ou Wombo Dream. No entanto, com o lançamento do Visual ChatGPT, isso mudará.
O que é Visual ChatGPT?
O ChatGPT é um chatbot apenas de texto sem a capacidade de gerar imagens ou vídeos, e o GPT-4 mudará isso. Visual ChatGPT pode gerar, modificar ou recortar imagens. Ele combina recursos do ChatGPT e outros VFMs, como Stable Diffusion, conectando o ChatGPT e uma série de Visual Foundation Models para enviar e receber imagens durante o chat.
O Visual ChatGPT ajuda os usuários a gerar imagens a partir de prompts de texto. Embora no momento ele careça de recursos que outras ferramentas de IA, como o Stable Diffusion, possuem.

A Microsoft afirmou que “em vez de treinar um novo ChatGPT multimodal do zero, construímos o Visual ChatGPT diretamente com base no ChatGPT e combinamos vários VFMs”.
Uso de memória da GPU
Visual ChatGPT requer alta GPU e poder de computação. O uso de memória da GPU de cada modelo básico de visão é o seguinte:
Modelo de fundação | Uso da Memória |
Legenda da imagem | 1755 |
Edição de imagem | 6667 |
T2I | 6677 |
linha2imagem | 6679 |
astuto2imagem | 5540 |
imagem hed2 | 6679 |
pose2imagem | 6681 |
rabisco2imagem | 6679 |
BLIPVQA | 2709 |
profundidade2imagem | 6677 |
imagem seg2 | 5540 |
normal2imagem | 3974 |
InstructPix2Pix | 2795 |
Como mencionamos acima, embora o ChatGPT seja treinado para fornecer aos usuários respostas baseadas em texto, falta a criação de imagens ou vídeos. E o Visual ChatGPT pode mudar isso:
- Não apenas palavras são enviadas e recebidas, mas também imagens.
- Fornecer questões visuais complexas ou instruções de edição visual requer colaboração em várias etapas de vários modelos de IA.
- Forneça feedback e solicite correções aos resultados.
Quando o GPT-4 será lançado?
O CTO da Microsoft Germany emitiu uma declaração em 9 de março de que o GPT-4 será lançado “na próxima semana”. O GPT-4 será um LLM multimodal capaz de criar imagens e vídeos a partir de dicas de texto além dos recursos de dicas de texto do GPT-3.5. Clique aqui para ver mais informações sobre o Visual ChatGPT no Github oficial.