0

Visual ChatGPT: Microsoft GPT-4 Σύντομα

Το ChatGPT εγκαινιάζει μια νέα εποχή στη βιομηχανία παραγωγής τεχνητής νοημοσύνης. Με την επιτυχία του ChatGPT, εμφανίστηκαν όλο και περισσότερα εργαλεία τεχνητής νοημοσύνης. Τα τελευταία χρόνια, η Microsoft έχει λάβει μέτρα για τη βελτίωση των εργαλείων παραγωγής τεχνητής νοημοσύνης. Ωστόσο, το ChatGPT είναι ένα μοντέλο γλώσσας που βασίζεται σε κείμενο, το οποίο δεν έχει τις ίδιες δυνατότητες με το DALL-E 2 ή το Wombo Dream. Ωστόσο, με την κυκλοφορία του Visual ChatGPT, αυτό θα αλλάξει.

Τι είναι το Visual ChatGPT;

Το ChatGPT είναι ένα chatbot μόνο κειμένου χωρίς δυνατότητα δημιουργίας εικόνων ή βίντεο και το GPT-4 θα το αλλάξει αυτό. Το Visual ChatGPT μπορεί να δημιουργήσει, να τροποποιήσει ή να περικόψει εικόνες. Συνδυάζει χαρακτηριστικά του ChatGPT και άλλων VFM, όπως το Stable Diffusion, τη σύνδεση ChatGPT και μια σειρά μοντέλων Visual Foundation για αποστολή και λήψη εικόνων κατά τη διάρκεια της συνομιλίας.

Το Visual ChatGPT βοηθά τους χρήστες να δημιουργούν εικόνες από μηνύματα κειμένου. Αν και αυτή τη στιγμή δεν διαθέτει χαρακτηριστικά που έχουν άλλα εργαλεία τεχνητής νοημοσύνης όπως το Stable Diffusion.

Η Microsoft δήλωσε ότι «Αντί να εκπαιδεύσουμε ένα νέο πολυτροπικό ChatGPT από την αρχή, δημιουργήσαμε το Visual ChatGPT απευθείας με βάση το ChatGPT και συνδυάσαμε διάφορα VFM».

Χρήση μνήμης GPU

Το Visual ChatGPT απαιτεί υψηλή GPU και υπολογιστική ισχύ. Η χρήση μνήμης GPU για κάθε βασικό μοντέλο όρασης είναι η εξής:

Μοντέλο θεμελίωσηςΧρήση μνήμης
ImageCaption1755
Επεξεργασία εικόνας6667
T2I6677
line2 εικόνα6679
canny2image5540
hed2image6679
pose2 image6681
scribble2 εικόνα6679
BLIPVQA2709
βάθος 2 εικόνα6677
seg2 εικόνα5540
normal2 εικόνα3974
InstructPix2Pix2795

Όπως αναφέραμε παραπάνω, ενώ το ChatGPT είναι εκπαιδευμένο για να παρέχει στους χρήστες απαντήσεις με βάση το κείμενο, στερείται δημιουργίας εικόνας ή βίντεο. Και το Visual ChatGPT μπορεί να αλλάξει αυτό:

  • Δεν στέλνονται και λαμβάνονται μόνο λέξεις, αλλά και εικόνες.
  • Η παροχή σύνθετων οπτικών ερωτήσεων ή οδηγιών οπτικής επεξεργασίας απαιτεί συνεργασία πολλαπλών βημάτων πολλαπλών μοντέλων τεχνητής νοημοσύνης.
  • Παρέχετε σχόλια και ζητήστε διορθώσεις στα αποτελέσματα.

Πότε θα κυκλοφορήσει το GPT-4;

Ο CTO της Microsoft Γερμανίας εξέδωσε μια δήλωση στις 9 Μαρτίου ότι το GPT-4 θα κυκλοφορήσει "την επόμενη εβδομάδα". Το GPT-4 θα είναι ένα πολυτροπικό LLM ικανό να δημιουργεί εικόνες και βίντεο από ενδείξεις κειμένου πάνω από τις δυνατότητες ενδείξεων κειμένου του GPT-3.5. Περισσότερα για να δείτε περισσότερες πληροφορίες σχετικά με το Visual ChatGPT στο επίσημο Github.

Αφήστε μια απάντηση