0

Visual ChatGPT : Microsoft GPT-4 bientôt disponible

ChatGPT inaugure une nouvelle ère dans l'industrie de l'intelligence artificielle générative. Avec le succès de ChatGPT, de plus en plus d'outils d'intelligence artificielle ont vu le jour. Au cours des dernières années, Microsoft a pris des mesures pour améliorer les outils d'IA générative. Cependant, ChatGPT est un modèle de langage basé sur du texte, qui n'a pas les mêmes capacités que DALL-E 2 ou Wombo Dream. Cependant, avec le lancement de Visual ChatGPT, cela va changer.

Qu'est-ce que Visual ChatGPT ?

ChatGPT est un chatbot textuel sans possibilité de générer des images ou des vidéos, et GPT-4 va changer cela. Visual ChatGPT peut générer, modifier ou recadrer des images. Il combine les fonctionnalités de ChatGPT et d'autres VFM, telles que Stable Diffusion, la connexion de ChatGPT et une série de modèles Visual Foundation pour envoyer et recevoir des images pendant le chat.

Visual ChatGPT aide les utilisateurs à générer des images à partir d'invites de texte. Bien qu'à l'heure actuelle, il manque des fonctionnalités que d'autres outils d'IA comme Stable Diffusion ont.

Microsoft a déclaré qu'"au lieu de former un nouveau ChatGPT multimodal à partir de zéro, nous avons construit Visual ChatGPT directement basé sur ChatGPT et combiné divers VFM."

Utilisation de la mémoire GPU

Visual ChatGPT nécessite un processeur graphique et une puissance de calcul élevés. L'utilisation de la mémoire GPU de chaque modèle de base de vision est la suivante :

Modèle de fondationUtilisation de la mémoire
Légende1755
L'édition d'image6667
T2I6677
ligne2image6679
canny2image5540
hed2image6679
pose2image6681
gribouillis2image6679
BLIPVQA2709
profondeur2image6677
image seg25540
image2normale3974
InstruirePix2Pix2795

Comme nous l'avons mentionné ci-dessus, bien que ChatGPT soit formé pour fournir aux utilisateurs des réponses textuelles, il manque la création d'images ou de vidéos. Et Visual ChatGPT peut changer cela :

  • Non seulement des mots sont envoyés et reçus, mais aussi des images.
  • Fournir des questions visuelles complexes ou des instructions d'édition visuelle nécessite une collaboration en plusieurs étapes de plusieurs modèles d'IA.
  • Fournir des commentaires et demander des corrections aux résultats.

Quand GPT-4 sortira-t-il ?

Le CTO de Microsoft Allemagne a publié le 9 mars une déclaration selon laquelle GPT-4 sera publié « la semaine prochaine ». GPT-4 sera un LLM multimodal capable de créer des images et des vidéos à partir d'indices de texte en plus des capacités d'indices de texte de GPT-3.5. Cliquez ici pour voir plus d'informations sur Visual ChatGPT sur le Github officiel.

nouvelles

Laissez un commentaire