0

Visual ChatGPT: Microsoft GPT-4 em breve

O ChatGPT inaugura uma nova era na indústria de inteligência artificial generativa. Com o sucesso do ChatGPT, surgiram cada vez mais ferramentas de inteligência artificial. Nos últimos anos, a Microsoft tomou medidas para melhorar as ferramentas generativas de IA. No entanto, o ChatGPT é um modelo de linguagem baseado em texto, que não possui os mesmos recursos do DALL-E 2 ou Wombo Dream. No entanto, com o lançamento do Visual ChatGPT, isso mudará.

O que é Visual ChatGPT?

O ChatGPT é um chatbot apenas de texto sem a capacidade de gerar imagens ou vídeos, e o GPT-4 mudará isso. Visual ChatGPT pode gerar, modificar ou recortar imagens. Ele combina recursos do ChatGPT e outros VFMs, como Stable Diffusion, conectando o ChatGPT e uma série de Visual Foundation Models para enviar e receber imagens durante o chat.

O Visual ChatGPT ajuda os usuários a gerar imagens a partir de prompts de texto. Embora no momento ele careça de recursos que outras ferramentas de IA, como o Stable Diffusion, possuem.

A Microsoft afirmou que “em vez de treinar um novo ChatGPT multimodal do zero, construímos o Visual ChatGPT diretamente com base no ChatGPT e combinamos vários VFMs”.

Uso de memória da GPU

Visual ChatGPT requer alta GPU e poder de computação. O uso de memória da GPU de cada modelo básico de visão é o seguinte:

Modelo de fundaçãoUso da Memória
Legenda da imagem1755
Edição de imagem6667
T2I6677
linha2imagem6679
astuto2imagem5540
imagem hed26679
pose2imagem6681
rabisco2imagem6679
BLIPVQA2709
profundidade2imagem6677
imagem seg25540
normal2imagem3974
InstructPix2Pix2795

Como mencionamos acima, embora o ChatGPT seja treinado para fornecer aos usuários respostas baseadas em texto, falta a criação de imagens ou vídeos. E o Visual ChatGPT pode mudar isso:

  • Não apenas palavras são enviadas e recebidas, mas também imagens.
  • Fornecer questões visuais complexas ou instruções de edição visual requer colaboração em várias etapas de vários modelos de IA.
  • Forneça feedback e solicite correções aos resultados.

Quando o GPT-4 será lançado?

O CTO da Microsoft Germany emitiu uma declaração em 9 de março de que o GPT-4 será lançado “na próxima semana”. O GPT-4 será um LLM multimodal capaz de criar imagens e vídeos a partir de dicas de texto além dos recursos de dicas de texto do GPT-3.5. Clique aqui para ver mais informações sobre o Visual ChatGPT no Github oficial.

vancenews

Deixe um comentário