GPT modellek
GPT modellek matematikája – nem mesterséges intelligencia, csak annak látszik❗
A mesterséges intelligencia fogalma az elmúlt években szinte teljesen összefonódott a GPT modellek kínálatával.
A legtöbb felhasználó számára az „MI” már nem robotokat vagy önálló döntéshozó rendszereket jelent, hanem egy szöveggeneráló chat ablakot. Ezekről persze sokan úgy vélik, önálló gondolatokkal rendelkeznek.
A fősodrú média által diktált eme szemléletváltás azonban nem technológiai, hanem marketing alapú. A GPT modellek ugyanis nem rendelkeznek valódi intelligenciával. Amit tudnak, az lenyűgöző nyelvi statisztika, nem pedig gondolkodás, s valójában működésük egész folyamata visszavezethető a matematikára.
Miért nem tekinthetők a GPT modellek valódi mesterséges intelligenciának❓
A mesterséges intelligencia eredeti definíciója szerint egy rendszer akkor tekinthető intelligensnek, HA
- képes önállóan tanulni,
- döntéseket hozni,
- és alkalmazkodni új helyzetekhez.
A GPT modellek ezzel szemben nem tanulnak a felhasználókkal való interakciókból, nem rendelkeznek belső célokkal, és nem értik a világot – csak szimulálják az értést.
Működésük statisztikai alapon történik:
Egy adott szövegkörnyezet alapján kiszámítják, hogy mi lehet a legvalószínűbb következő szó vagy karakter.
✅ Ez nem gondolkodás, hanem predikció. A „mesterséges intelligencia” címke tehát itt inkább egy marketingfogás, amely segít eladni a technológiát – és nem egy pontos technikai besorolás❗
A valódi intelligencia – akár emberi, akár gépi – nemcsak válaszol, hanem kérdez, reflektál, és képes új fogalmakat alkotni. S a válaszait, nem a valószínűsített adekvát opciókból emeli ki, amely egy nagyobb adatbázison keresztül számára rendelkezésre áll.
📣 A GPT modellek ezzel szemben csak újrahasznosítják azt, amit már láttak. Ezért is fontos, hogy ne keverjük össze a nyelvi modelleket az intelligens rendszerekkel.
GPT evolúció: 1.0-tól 6.0-ig – mit tanultunk❓
✅ A GPT modellek fejlődése az elmúlt években nemcsak méretbeli ugrásokat hozott, hanem architekturális váltásokat is. 👇
GPT-1 :
2018-ban még csak 117 millió paraméterrel dolgozott,
GPT-2 :
2019-ben ez már 1,5 milliárddal paraméterrel működött, és képes volt összefüggő szövegeket generálni.
GPT-3 :
2020-ban volt az első igazán „mainstream” modell, 175 milliárd paraméterrel, és már képes volt meggyőzően utánozni emberi nyelvet. A válaszai sokszor nemcsak nyelvtanilag helyesek, hanem kontextusban is értelmezhetők voltak.
GPT-4 :
Ez a modell 2023-ban áttért a Mixture of Experts (MoE) architektúrára, ahol több almodell közül csak néhány aktiválódik egy adott feladat során. A teljes rendszer becslések szerint 1,8 billió paramétert tartalmaz, de egy-egy válasz során csak kb. 220 milliárd paraméter aktív.
GPT-5 :
Technikai részletei nem teljesen nyilvánosak, de a legtöbb forrás, és tapasztalatok szerint sem hozott drasztikus méretbeli ugrást. Inkább a finomhangolás, a multimodális inputok kezelése, és a hosszabb kontextusablak (pl. 128k token) jelentette az előrelépést.
A paraméterszám valószínűleg hasonló vagy kissé nagyobb, mint a GPT-4 esetében – de a hatékonyság és a válaszminőség javult.
GPT-6 :
A GPT-6 jelenleg még fejlesztés alatt álló vagy korlátozottan elérhető modell, amelyről szintén kevés hivatalos adat áll rendelkezésre, noha nekem sikerült azért tesztelnem. Egyes kiszivárgott információk szerint 70 milliárd paraméteres almodellek is szerepet kapnak benne – de ez nem a teljes modell mérete, hanem egyes komponenseké.
A GPT-6 célja nem a méret növelése, hanem a robosztusabb finomhangolás, a valós idejű adaptáció, és a biztonságosabb válaszgenerálás.
A GPT modellek tehát nem lineárisan „okosodnak”, hanem egyre jobban illeszkednek a nyelvi mintákhoz. A fejlődés kulcsa nem a nyers méret, hanem az architektúra, az adatminőség és a felhasználói visszacsatolás.
🤔 Az emberi 🧠 agy és a GPT modellek – számháború vagy lényegi különbség❓
A GPT modellek paramétereinek száma lenyűgözőnek tűnhet – a GPT-3 például 175 milliárd, a GPT-4 pedig becslések szerint akár 1,8 billió paraméterrel is dolgozhat, ahogy feljebb említettem.
ℹ️ Ezek a számok azonban csak akkor értelmezhetők, ha összevetjük azokat az emberi agy működésével. 👇
Kifejezetten az emberi agyról:
Az emberi agyban körülbelül 86 milliárd neuron található. Ez elsőre kevesebbnek tűnhet, mint a GPT modellek paraméterszáma – de ez félrevezető❗
Ugyanis minden egyes neuron több ezer szinaptikus kapcsolattal rendelkezik, és ezek a kapcsolatok hordozzák az információt, a súlyokat, az emlékeket – vagyis a valódi „paramétereket”.
Ha minden neuronhoz átlagosan 10 000 szinapszis tartozik, akkor az emberi agyban több mint 860 billió szinaptikus kapcsolat van. Ez nagyságrendekkel több, mint a GPT modellek közül bármelyik paraméterszáma. Ráadásul ezek a kapcsolatok dinamikusan változnak, tanulnak, felejtenek, és kontextusfüggően aktiválódnak – míg a GPT modellek paraméterei statikusak, és csak előre betanított minták alapján működnek.
Ez a különbség nemcsak mennyiségi, hanem minőségi is. Az emberi agy képes:
- asszociálni teljesen új fogalmakat,
- értelmezni szándékokat, érzelmeket,
- alkalmazkodni új helyzetekhez tanulás révén,
- és önreflexióra is képes.
A GPT modellek ezzel szemben csak azt tudják visszaadni, amit már láttak – statisztikai alapon. Nincs belső világuk, nincs céljuk, nincs szándékuk. Ezért is nehézkes – sőt, félrevezető – valódi intelligenciáról beszélni ezekkel kapcsolatban.
Mielőtt továbbmennék, maga a GPT (Generative Pretrained Transformer – Generatív Előtanított Transzformer) modell, hogyan számítja ki, mi is legyen a következő szó❓
A GPT modellek lényege, hogy egy adott szövegkörnyezet alapján kiszámítják a következő token (szó vagy szóelem) valószínűségét. Ez nem varázslat, hanem egy jól definiált matematikai művelet.

A kulcsképlet:
P(xt | x<t) = softmax(Wo zt)
- xtx_t: a következő token, amit a modell megjósolni próbál.
- x<tx_{<t}: az összes előző token a szövegben.
- ztz_t: a végső réteg kimenete a t-edik pozíción.
- WoW_o: az output súlymátrix, amely a belső reprezentációt a szókincs valószínűségeivé alakítja.
- softmax: egy aktivációs függvény, amely a nyers értékeket valószínűségi eloszlássá alakítja.
Ez a képlet azt mutatja meg, hogy a GPT modellek nem „értik” a szöveget, hanem valószínűségi eloszlást számítanak ki a következő tokenre, az eddigi szöveg alapján.
💡 Mi történik a háttérben❓
- Tokenizálás: A bemenetet tokenekre bontják.
- Beágyazás: Minden token egy vektorként kerül be a modellbe.
- Pozíciókódolás: A tokenekhez pozícióinformációt adnak (pl. szinuszos kódolással).
- Transformer blokkok: Több rétegnyi önfigyelő (self-attention) és feedforward hálózat dolgozza fel a tokeneket.
- Predikció: A végső réteg kimenetét a WoW_o súlymátrix segítségével softmaxon keresztül alakítják valószínűségekké.
Miért nem „gondolkodnak” a GPT modellek❓
A képletből látszik, hogy a GPT modellek nem értelmezik a szöveget – csak mintázatokat keresnek. A softmax nem dönt, csak rangsorol. A modell nem tudja, hogy egy szó igaz vagy hamis, csak azt, hogy valószínű-e az adott kontextusban.
Ezért is fordulhat elő a „hallucináció” jelensége: ha a modell nem talál elég mintát, akkor statisztikailag „kitalál” valamit, ami nyelvtanilag helyes, de tartalmilag téves. Ilyenkor szokott nem is létező URL-ekre hivatkozni, viccesen fogalmazva füllenteni.
A fejlődés határai – új adatok nélkül nincs új GPT
A GPT modellek fejlődése eddig látványos volt, de egyre több jel utal arra, hogy elértük a tanítóadatok plafonját. A nyelvi modellek teljesítménye ugyanis nemcsak az architektúrán múlik, hanem azon is, hogy milyen mennyiségű és minőségű adatból tanulnak.
- A GPT-3 például az internet nagy részét „beolvasta” – könyveket, cikkeket, fórumokat, kódrészleteket.
- A GPT-4 és GPT-5 már alig tudtak új adatot hozzáadni ehhez, inkább a finomhangolásra és a prompt-kezelésre koncentráltak.
A probléma az, hogy nincs végtelen mennyiségű új, jó minőségű adat. Az internetes tartalmak ismétlődnek, zajosak, és sokszor nem informatívak❗
Ez azt jelenti, hogy a modellek fejlődése egy lefelé görbülő pályára állt: minden új generáció egyre kisebb ugrást hoz, miközben az erőforrásigény exponenciálisan nő. A paraméterszám növelése önmagában már nem elegendő – a modell nem lesz „okosabb”, csak drágább és nehezebben futtatható.
✅ Ráadásul az újabb modellek már nem tanulnak folyamatosan.
A GPT modellek statikusak:
Amit betanítottak nekik, azt tudják – de nem frissülnek automatikusan. Ezért fordulhat elő, hogy egy 2025-ös kérdésre egy 2023-as válasz érkezik. Az adathiány tehát nemcsak technikai, hanem időbeli korlát is.
A valódi intelligencia ezzel szemben folyamatosan tanul, alkalmazkodik, és új mintákat alkot. A GPT modellek viszont csak újrahasznosítják a régit – egyre kifinomultabban, de nem kreatívabban.
Mi jöhet ezután❓ – Alternatívák a GPT modellek után
Ahogy a GPT modellek fejlődése lassul, egyre többen keresik azokat az irányokat, amelyek valóban új szintre emelhetik a gépi nyelvfeldolgozást – vagy akár az intelligenciát mint fogalmat.
🌐 Multimodális modellek
A jövő egyik kulcsa a multimodalitás: olyan modellek, amelyek nemcsak szöveget, hanem képet, hangot, videót és egyéb adatokat is képesek értelmezni. Ez lehetővé teszi, hogy a gép ne csak nyelvi mintákban gondolkodjon, hanem összetett kontextusokat is kezeljen – például egy képaláírás, egy hangutasítás vagy egy vizuális diagram alapján.
🧠 Reinforcement Learning és adaptív rendszerek
A másik irány a megerősítéses tanulás (Reinforcement Learning), ahol a modell nemcsak passzívan tanul, hanem aktívan döntéseket hoz, visszajelzéseket kap, és ezek alapján fejlődik. Ez közelebb áll az emberi tanuláshoz, és lehetőséget ad arra, hogy a gép valódi célokat kövessen – ne csak statisztikai mintákat.
🎨 Az emberi kreativitás szerepe
A GPT modellek sosem lesznek kreatívak – legfeljebb kreatívnak tűnnek. Az emberi alkotás lényege nem az ismétlés, hanem az újdonság. A jövő tehát nem a gépi kreativitásban rejlik, hanem abban, hogy a gépek támogatják az emberi gondolkodást, ötletelést, és alkotást – nem helyettesítik.
Az élet sok területén jelen van már, például ha érdekel beleolvashatsz abba a 2024-es kiadványba, amely a GPT modellek megjelenését kifejezetten az egészségügy területén vizsgálta. Igaz, nem kifejezetten matematikai útmutató mint amit én adtam jelen publikációmmal, de elég jól érinti a GPT modellek működésének logikáját és architektúráját.
S mivel említett kiadvány az 🔗 Interdiszciplináris Magyar Egészségügy folyóiratban jelent meg, így ékes anyanyelvünkön olvashatod ezt is.
Zárógondolatom a GPT modellek témámhoz
Hol látom én a mindennapi gyakorlatban a fentiekben általam ecsetelt GPT modellek alapját képző egyszerű matematika, s az ebből eredeztethető mindennemű intelligencia nélküli alap butaságokat?
Nem kell messzire menni. Elég ha a programozást vesszük alapul. Amikor egy GPT modellnek adunk ki feladatot, hogy valósítson meg egy algoritmust, akár egy komplexebb rendszert, tele van alapvető hibákkal és hiányosságokkal.
😂 Sok esetben még az egyszerű matematikára visszavezethető sémát sem tudja követni❗
Tegyük fel, megosztasz vele egy forráskódot, ami egy tokenizált hitelesítési eljáráshoz kötött valamilyen megoldásról szól. A forráskódban egyértelműen szerepel, hogy az adott szerveren pontosan hol van a hitelesítési token lokalizációja (path – útvonal), kénye kedvére átírja valami teljesen másra az elérési útvonalat. Egészen egyszerűen ez azért van, mert az adekvát válaszaiban, csupán mintázatokból dolgozik, de abszolút nem érti mit csinál.
A média szerintem sokszor képes hiszterizálni amikor azzal riogat, hogy az emberek munkahelyeit számtalan ponton veszélyezteti mindaz, amit úgy fogalmaz meg, hogy 🔗 Mesterséges Intelligencia. Nekem a saját tapasztalatom az, hogyha pusztán a paraméterszámbeli különbséget nézzük a GPT modellek és az emberi agy között, míg paraméterszámban, el tudná érni az emberi agyat az is legalább száz esztendő lenne.
Semmi olyan területen nem tudja az embert kiváltani, ahol stratégia, tényleges gondolkodás kellene. Talán a legegyszerűbb repetatív jellegű tevékenységek kiváltására lehet alkalmas a jelenlegi formájában. 👋 Tarts velem máskor is 😊
A világ globális működését feltérképező, s annak összefüggéseit megérteni óhajtó generalista vagyok. Célom nem más, mint az ismeretterjesztés.















