ChatGPT inleder en ny era i den generativa artificiella intelligensbranschen. Med framgången med ChatGPT har fler och fler verktyg för artificiell intelligens dykt upp. Under de senaste åren har Microsoft vidtagit åtgärder för att förbättra generativa AI-verktyg. ChatGPT är dock en textbaserad språkmodell som inte har samma möjligheter som DALL-E 2 eller Wombo Dream. Men med lanseringen av Visual ChatGPT kommer det att förändras.
Vad är Visual ChatGPT?
ChatGPT är en chatbot för endast text utan möjlighet att generera bilder eller videor, och GPT-4 kommer att ändra på det. Visual ChatGPT kan generera, ändra eller beskära bilder. Den kombinerar funktioner från ChatGPT och andra VFM:er, såsom stabil diffusion, ansluter ChatGPT och en serie Visual Foundation-modeller för att skicka och ta emot bilder under chatten.
Visual ChatGPT hjälper användare att skapa bilder från textmeddelanden. Även om den just nu saknar funktioner som andra AI-verktyg som Stable Diffusion har.

Microsoft sa att "Istället för att träna en ny multimodal ChatGPT från grunden, byggde vi Visual ChatGPT direkt baserat på ChatGPT och kombinerade olika VFM."
GPU-minnesanvändning
Visual ChatGPT kräver hög GPU och datorkraft. GPU-minnesanvändningen för varje visionbasmodell är som följer:
Grundmodell | Minnesanvändning |
ImageCaption | 1755 |
Bildredigering | 6667 |
T2I | 6677 |
linje2bild | 6679 |
canny2image | 5540 |
hed2bild | 6679 |
pose2image | 6681 |
scribble2image | 6679 |
BLIPVQA | 2709 |
depth2image | 6677 |
seg2image | 5540 |
normal2bild | 3974 |
InstructPix2Pix | 2795 |
Som vi nämnde ovan, medan ChatGPT är utbildad för att ge användarna textbaserade svar, saknar den bild- eller videoskapande. Och Visual ChatGPT kan ändra detta:
- Inte bara ord skickas och tas emot, utan även bilder.
- Att tillhandahålla komplexa visuella frågor eller visuella redigeringsinstruktioner kräver samarbete i flera steg av flera AI-modeller.
- Ge feedback och begär korrigeringar av resultat.
När släpps GPT-4?
CTO för Microsoft Tyskland utfärdade ett uttalande den 9 mars att GPT-4 kommer att släppas "nästa vecka". GPT-4 kommer att vara en multimodal LLM som kan skapa bilder och videor från textsignaler utöver GPT-3.5:s textledningsfunktioner. Klicka här för att se mer information om Visual ChatGPT på den officiella Github.