Tokeni și Parametri în LLM-uri
Cum procesează ChatGPT textul: Tokenii
Modelele GPT (Generative Pre-trained Transformer) procesează limbajul natural prin tokenizare.
Ce este un token?
Un token este o unitate de bază de text. Tokenii reprezintă cele mai mici unități de date pe care modelul le procesează:
- Cuvinte (“model”)
- Părți de cuvinte (“inteligen-ță”)
- Simboluri sau spații
- Propoziții sau fraze
Procesul de tokenizare
- Textul de intrare (input) este descompus în tokeni
- Modelul generează răspunsul (output) tot sub formă de tokeni, unul câte unul
- Predicția fiecărui token se bazează pe contextul anterior și pe parametrii învățați
Important: Tokenii nu coincid întotdeauna cu cuvintele.
Fereastra de context și limita de tokeni
Un model GPT poate procesa doar un număr maxim de tokeni într-o singură interacțiune, numit Fereastră de context (context window).
Ce include fereastra de context:
- Tokenii de intrare (prompt, mesaje anterioare)
- Tokenii de ieșire (răspunsul generat)
Evoluția limitelor:
| Model | Limite tokeni |
|---|---|
| GPT-3.5 | ~4.000 tokeni |
| GPT-4 (inițial) | ~8.000 tokeni |
| GPT-4.1 / GPT-4o / GPT-5.x | până la 128.000+ tokeni |
Fereastra de context permite analiza documentelor lungi, conversații complexe și raționament multi-pas.
Tokenii ca unități fundamentale de date
Tokenii sunt:
- Cele mai mici unități de date procesate de model
- Unitățile pe baza cărora se realizează antrenarea și inferența
Observații importante:
- Limbi diferite (ex. româna vs. engleza) au densități diferite de tokeni
- Același text poate consuma un număr diferit de tokeni
Datele de antrenare și rolul tokenilor
Modelele GPT sunt antrenate pe volume masive de text, exprimate în tokeni:
- GPT-3: ~500 de miliarde de tokeni
- GPT-4 și generațiile ulterioare: seturi de date de ordinul trilioanelor de tokeni
Antrenarea pe un volum mare de tokeni permite:
-
Captarea relațiilor semantice - co-ocurența termenilor în contexte variate; rezultat: reprezentări interne care reflectă sensul, nu doar forma cuvintelor
-
Învățarea structurilor lingvistice - tipare gramaticale recurente; ordinea cuvintelor; acorduri, dependențe sintactice și stiluri diferite
-
Predicția următorului token plauzibil într-un context dat
- Exemplu: “Inteligența artificială este utilizată în domeniul…” → “educației”, “medicinei”, “industriei”
Aceasta este baza tuturor capacităților emergente: explicație, sumarizare, raționament aparent.
Parametrii în Inteligența Artificială Generativă
Parametrii sunt variabilele interne ale modelului, învățate în timpul antrenării.
În rețelele neuronale, aceștia includ:
- Greutățile (weights) - valori numerice care codifică cunoștințe
Dimensiunea modelelor:
Modelele GPT moderne au zeci sau sute de miliarde de parametri.
Important: Parametrii NU sunt reguli scrise explicit, ci valori numerice care codifică cunoștințe.
Cum sunt utilizați parametrii:
- Pentru a calcula probabilitatea fiecărui token posibil
- Pentru a genera ieșirea (output) modelului pentru un input dat
Procesul de antrenare:
- Modelul face o predicție
- Se calculează eroarea față de valoarea reală
- Parametrii sunt ajustați prin algoritmi de optimizare (ex. gradient descent)
În timp, modelul învață pattern-uri și relații din date și le generalizează la date noi.
Sinteză: Tokens/Parameters
| Concept | Descriere |
|---|---|
| Tokenii | Unități de intrare/ieșire |
| Context window | Limita de informație procesabilă |
| Parametrii | “Memoria numerică” a modelului |
| Predicția | Selecția celui mai probabil token, pe baza contextului și parametrilor |
Întrebări de verificare
- Ce este un token și ce poate reprezenta?
- Care este diferența dintre tokeni și cuvinte?
- Ce este fereastra de context și de ce este importantă?
- Ce rol au parametrii în generarea output-ului?
- Cum contribuie antrenarea pe volume mari de tokeni la capacitățile modelului?