Το ChatGPT εγκαινιάζει μια νέα εποχή στη βιομηχανία παραγωγής τεχνητής νοημοσύνης. Με την επιτυχία του ChatGPT, εμφανίστηκαν όλο και περισσότερα εργαλεία τεχνητής νοημοσύνης. Τα τελευταία χρόνια, η Microsoft έχει λάβει μέτρα για τη βελτίωση των εργαλείων παραγωγής τεχνητής νοημοσύνης. Ωστόσο, το ChatGPT είναι ένα μοντέλο γλώσσας που βασίζεται σε κείμενο, το οποίο δεν έχει τις ίδιες δυνατότητες με το DALL-E 2 ή το Wombo Dream. Ωστόσο, με την κυκλοφορία του Visual ChatGPT, αυτό θα αλλάξει.
Τι είναι το Visual ChatGPT;
Το ChatGPT είναι ένα chatbot μόνο κειμένου χωρίς δυνατότητα δημιουργίας εικόνων ή βίντεο και το GPT-4 θα το αλλάξει αυτό. Το Visual ChatGPT μπορεί να δημιουργήσει, να τροποποιήσει ή να περικόψει εικόνες. Συνδυάζει χαρακτηριστικά του ChatGPT και άλλων VFM, όπως το Stable Diffusion, τη σύνδεση ChatGPT και μια σειρά μοντέλων Visual Foundation για αποστολή και λήψη εικόνων κατά τη διάρκεια της συνομιλίας.
Το Visual ChatGPT βοηθά τους χρήστες να δημιουργούν εικόνες από μηνύματα κειμένου. Αν και αυτή τη στιγμή δεν διαθέτει χαρακτηριστικά που έχουν άλλα εργαλεία τεχνητής νοημοσύνης όπως το Stable Diffusion.

Η Microsoft δήλωσε ότι «Αντί να εκπαιδεύσουμε ένα νέο πολυτροπικό ChatGPT από την αρχή, δημιουργήσαμε το Visual ChatGPT απευθείας με βάση το ChatGPT και συνδυάσαμε διάφορα VFM».
Χρήση μνήμης GPU
Το Visual ChatGPT απαιτεί υψηλή GPU και υπολογιστική ισχύ. Η χρήση μνήμης GPU για κάθε βασικό μοντέλο όρασης είναι η εξής:
Μοντέλο θεμελίωσης | Χρήση μνήμης |
ImageCaption | 1755 |
Επεξεργασία εικόνας | 6667 |
T2I | 6677 |
line2 εικόνα | 6679 |
canny2image | 5540 |
hed2image | 6679 |
pose2 image | 6681 |
scribble2 εικόνα | 6679 |
BLIPVQA | 2709 |
βάθος 2 εικόνα | 6677 |
seg2 εικόνα | 5540 |
normal2 εικόνα | 3974 |
InstructPix2Pix | 2795 |
Όπως αναφέραμε παραπάνω, ενώ το ChatGPT είναι εκπαιδευμένο για να παρέχει στους χρήστες απαντήσεις με βάση το κείμενο, στερείται δημιουργίας εικόνας ή βίντεο. Και το Visual ChatGPT μπορεί να αλλάξει αυτό:
- Δεν στέλνονται και λαμβάνονται μόνο λέξεις, αλλά και εικόνες.
- Η παροχή σύνθετων οπτικών ερωτήσεων ή οδηγιών οπτικής επεξεργασίας απαιτεί συνεργασία πολλαπλών βημάτων πολλαπλών μοντέλων τεχνητής νοημοσύνης.
- Παρέχετε σχόλια και ζητήστε διορθώσεις στα αποτελέσματα.
Πότε θα κυκλοφορήσει το GPT-4;
Ο CTO της Microsoft Γερμανίας εξέδωσε μια δήλωση στις 9 Μαρτίου ότι το GPT-4 θα κυκλοφορήσει "την επόμενη εβδομάδα". Το GPT-4 θα είναι ένα πολυτροπικό LLM ικανό να δημιουργεί εικόνες και βίντεο από ενδείξεις κειμένου πάνω από τις δυνατότητες ενδείξεων κειμένου του GPT-3.5. Περισσότερα για να δείτε περισσότερες πληροφορίες σχετικά με το Visual ChatGPT στο επίσημο Github.