Tokenization
Tokenizace
Stručně
Rozdělení textu na malé jednotky (tokens) pro LLM zpracování. Klíčové pro pochopení AI cen a limitů.
Detail a kontext
Tokenization je proces dělení textu na "tokens" pro LLM. Token je často ~3–4 znaky v angličtině, v češtině 2–3 znaky (díky diakritice je čeština "drahá"). "Hello world" = 2 tokens, "Ahoj světe" = 5 tokens. Klíčové pro: 1) ceny AI API (typicky $0.5–$30 per 1M input tokens, $1–$60 per 1M output), 2) context window limity (GPT-4 = 128k, Claude Opus = 200k, Gemini = 2M+), 3) latency (víc tokens = pomalejší). Pro marketing: české texty potřebují víc tokens — 1000 slov CZ ≈ 2500–3000 tokens, 1000 slov EN ≈ 1500 tokens. Calculator: platform.openai.com/tokenizer.
Související pojmy
Potřebujete pomoci s tímto pojmem v praxi?
Naučit se teorii je první krok. Implementovat ji efektivně už chce zkušenost. Pojďme se o tom pobavit.
Napište mi