GPT-4

Innen: Hungaropédia
A lap korábbi változatát látod, amilyen imported>B.Zsolt 2025. február 1., 23:15-kor történt szerkesztése után volt. (Jegyzetek)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)
Ugrás a navigációhozUgrás a kereséshez
GPT-4
A GPT-4 logója
A GPT-4 logója

FejlesztőOpenAI
Első kiadás2023
Programozási nyelvPython
Platformplatform.openai.com
Méret1.76 billió paraméter
ElérhetőA rendszer több mint 50 nyelvet támogat, lefedve a beszélt nyelvek több mint 97 százalékát.
Kategóriachatbotok
Licenckereskedelmi licenc
[chatgpt.com A GPT-4 weboldala]

A GPT-4 egy multimodális, nagy nyelvi modell, amelyet az OpenAI hozott létre, és a GPT alapmodellek sorozatának negyedik tagja.[1][2] A multimodalitás azt jelenti, hogy a GPT-4 esetében már nem csak szöveges parancsokkal, de képekkel is lehet tartalmat generálni.[3]

A GPT-4 modellt 2023. március 14-én mutatták be a nagyközönségnek. A ChatGPT GPT-4-et használó verziója határozott javulást jelentett a GPT-3.5-ön alapuló korábbi verzióhoz képest, de nem szüntette meg a korábbi verziók minden problémáját. Mindemellett GPT-4 megbízhatóbb és kreatívabb lett; sokkal árnyaltabban volt képes az utasításokat kezelni, mint a GPT-3.5. Ez a modell mérföldkövet jelentett a mesterséges intelligencia fejlődésében.[4]

Jellemzők

Az OpenAI 2018-ban bemutatta az első GPT modellt, amely a transzformátor architektúrára épült. Ez a technológia lehetővé tette, hogy a modell nagyméretű könyvgyűjteményeken tanuljon, és a következő években jelentős fejlődést mutatott. A GPT-3, majd annak továbbfejlesztett változata, a GPT-3.5, már rendkívüli képességekkel rendelkezett a tanulás terén. A GPT-4 azonban minden addigi modell teljesítményét túlszárnyalta, amit 1,76 billió paraméterének köszönhetett. A GPT-4 előtréningezése nyilvános és engedélyezett harmadik féltől származó adatok felhasználásával történt, melyet megerősítéses tanulási technikákkal tökéletesítettek trénerek és mesterséges intelligencia által adott visszajelzések alapján. Az OpenAI csak korlátozott információt bocsátott rendelkezésre a GPT-4 technikai jellemzőit illetően; a műszaki ismertetés során kifejezetten elzárkózott attól, hogy ismertesse a modell paramétereit, felépítését, vagy a betanítás során használt hardvert. Ugyan tájékoztatást adtak arról, hogy a modellt először egy nagy adatbázisra épülő, irányított, mennyiségi alapú képzéssel, majd emberi és mesterséges intelligencia-visszacsatolással kombinált minőségi betanítással képezték ki, de nem közöltek további részleteket sem a betanítás folyamatáról, sem a képzési adatbázis összeállításának szempontjairól. Nem adtak meg olyan hiperparamétereket, mint például a tanulási sebesség, az epochaszám vagy az alkalmazott optimalizátorok, nem tájékoztattak a felmerült erőforrásigényekről sem. Döntésüket „a versenyhelyzettel és a nagyméretű modellek biztonsági kockázataival” indokolták.[5]

Alkalmazás

„Hozzon létre egy képet, amely érzése szerint jól reprezentálja magát, a GPT-4-et!” – A fenti parancsra ezt a képet generálta a GPT-4 és a DALL-E (2024)

Az OpenAI azzal érzékeltette új modellje képességét, hogy a GPT-4 az amerikai jogi egyetemek végzősei számára a hivatásos ügyvédi tevékenység megkezdése előtt előírt ügyvédi vizsga szimulációja során a tesztet kitöltők legjobb 10 százaléka körül teljesített, míg a régebbi modell „csak” az alsó 10 százalék körüli eredményt érte el.[6] A Microsoft Research[7] is tesztelte az új modellt, és arra a következtetésre jutott, hogy „joggal tekinthető egy mesterséges általános intelligencia (Artifical General Intelligence, AGI) rendszer korai, de még nem tökéletes változatának”.[8] A Microsoft hivatalosan is megerősítette, hogy a Bing GPT egy hónappal korábbi bemutatásakor (ld. alább) valójában már a GPT-4 verziót használták,[9] és bejelentette a GPT-4 további integrációját már meglévő termékeibe, az emberek milliói által nap mint nap használt olyan alkalmazásokba, mint a Wordbe, az Excelbe, a PowerPointba, az Outlookba és a Teamsbe.[8]

GPT-4 vezérelt DALL-E

A DALL-E mesterséges intelligencia, amely képes részletes és élethű képeket generálni szöveges leírások alapján. A DALL-E és a GPT-4 között szoros kapcsolat van, mivel mindkettőt az OpenAI fejlesztette ki, és a DALL-E szorosan integrálódik a GPT-4-hez.[10] A kapcsolat legfontosabb pontjai:

  1. GPT-4 integráció: a DALL-E a GPT-4 nyelvi képességeit használta a felhasználói utasítások értelmezésére. Ez azt jelenti, hogy a szöveges leírásokat a GPT-4 dolgozza fel, hogy a lehető legpontosabb vizuális eredményt adta. A GPT-4 képes volt finomítani és pontosítani a felhasználók által megadott szöveges leírásokat, így a DALL-E pontosabban generálta a kívánt képet.[11]
  2. ChatGPT-ben való elérhetőség: a DALL-E elérhető lett a GPT-4 verzióban. Ez lehetővé tette, hogy a felhasználók egyszerűen szöveges utasításokat adjanak, és azonnal láthassák a generált képeket.
  3. Szöveg és kép közötti koherencia: a GPT-4 nyelvi modelljének kifinomultsága segítette a DALL-E-t abban, hogy a generált képek szorosan igazodjanak az utasításokhoz. Ez különösen fontos volt bonyolultabb vagy részletgazdagabb szöveges leírások esetén.[12]
  4. Inpaint és módosítások: A DALL-E fejlesztései közé tartozott a képek módosításának képessége (pl. inpaint, azaz képkitöltés, képjavítás; részletek cseréje vagy finomítása), ami szintén a GPT-4 szövegértési képességein alapult. A GPT-4 pontosan megértette, mit kell a képen módosítani, és a DALL-E végrehajtotta azt.[13]
    Schrödinger macskája (ChatGPT 4.0 & Dall-E; 2024)

Tehát a GPT-4 lényegében a DALL-E "agyaként" működött, amely értelmezi a szöveges utasításokat és biztosítja, hogy a generált képek pontosan tükrözzék a felhasználó elképzeléseit. Ez a mély integráció tette a DALL-E-t különösen hatékonnyá a képgenerálásban.[14]

Továbbfejlesztés

Az OpenAI új funkcióként bevezette a "rendszerüzenetek" használatát, melyek segítségével a modell hangneme és feladata finomhangolható lett. Ez lehetőséget adott arra, hogy a GPT-4 például Shakespeare-stílusú szövegeket készítsen, vagy válaszait JSON formátumban adja meg, így még szélesebb körben alkalmazható technológiai és kreatív projektek során. Sam Altman az OpenAI vezérigazgatója kijelentette, hogy a GPT-4 betanításának költsége meghaladta a 100 millió dollárt. A Semafor nevű hírportál állítása szerint nyolc, a projekt belső részleteivel ismerős forrással beszéltek, akik szerint a GPT-4 paramétereinek száma elérte az 1,76 billiót. 2023 novemberében bejelentették a GPT-4 Turbo[15] és GPT-4 V(ision)[16] modelleket, amelyek még nagyobb kontextusablakot (akár 128K token) és gazdaságosabb árazást biztosítottak. Ezek a költséghatékonyság lényeges szempontjaira alapultak.

GPT-4 után GPT-4o

2024. május 13-án az OpenAI bemutatta a GPT-4o (GPT-4 omni) modelljét, mely további jelentős előrelépést jelentett a szöveg, hang és kép modalitások valós idejű feldolgozásával és kimenetek létrehozásával. A GPT-4o az emberi reakcióhoz hasonló gyors válaszidőt mutatott a beszélgetések során, jelentősen javult a teljesítménye az angolon kívüli nyelveken is, valamint sikerült elérni a látás és a hallás funkciók fejlesztését. A GPT-4o a különböző bemeneteket és kimeneteket egységes modellbe integrálta, így gyorsabb és költséghatékonyabb lett, mint elődei.

Jegyzetek

  1. Edwards, Benj: OpenAI’s GPT-4 exhibits “human-level performance” on professional benchmarks (en-US nyelven). Ars Technica, 2023. március 14. (Hozzáférés: 2024. december 12.)
  2. Coëffé, Thomas: OpenAI dévoile GPT-4 : tout savoir sur le nouveau modèle d’IA multimodale (fr-FR nyelven). BDM, 2023. március 14. (Hozzáférés: 2024. december 12.)
  3. Wiggers, Kyle: OpenAI releases GPT-4, a multimodal AI that it claims is state-of-the-art (en-US nyelven). TechCrunch, 2023. március 14. (Hozzáférés: 2024. december 12.)
  4. Belfield, Haydn: If your AI model is going to sell, it has to be safe (en-US nyelven). Vox, 2023. március 25. (Hozzáférés: 2024. december 12.)
  5. OpenAI (2023). GPT-4 Technical Report (PDF) (Technical report). arXiv:2303.08774. doi:10.48550/arxiv.2303.08774. Archived (PDF) from the original on March 14, 2023. Retrieved March 14, 2023https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf
  6. Itt a minden eddiginél fejlettebb mesterséges intelligencia (magyar nyelven). Portfolio.hu, 2023. március 14. (Hozzáférés: 2024. december 12.)
  7. Microsoft Research – Emerging Technology, Computer, and Software Research (en-US nyelven). Microsoft Research. (Hozzáférés: 2024. december 12.)
  8. 8,0 8,1 Bubeck, Sébastien, Ronen (2023. március 24.) http://arxiv.org/abs/2303.12712
  9. Confirmed: the new Bing runs on OpenAI’s GPT-4 (en-US nyelven). blogs.bing.com, 2023. március 14. (Hozzáférés: 2024. december 12.)
  10. DALL·E 3 is now available in ChatGPT Plus and Enterprise (en-US nyelven). openai.com. (Hozzáférés: 2025. január 25.)
  11. CodeSalad (2023. október 22.). „ChatGPT 4's Secret Sauce with DALL·E 3: Upload and Modify Images Like a Graphic Designer”. (Hozzáférés: 2025. január 25.) 
  12. A banánt evő kék majom esete - Avagy kipróbáltuk hogyan teljesít az új DALL-E 3 (magyar nyelven). www.xlabs.hu. (Hozzáférés: 2025. január 25.)
  13. Mittal, Aayush: Nézze meg közelebbről az OpenAI DALL-E 3-at (magyar nyelven). Unite.AI, 2023. október 31. (Hozzáférés: 2025. január 25.)
  14. DALL·E 3 (en-US nyelven). openai.com. (Hozzáférés: 2025. január 25.)
  15. OpenAI Platform (English nyelven). platform.openai.com. (Hozzáférés: 2024. december 12.)
  16. GPT-4V(ision) technical work and authors (en-US nyelven). openai.com. (Hozzáférés: 2024. december 12.)