ai

Tokenization

Tokenizace

Stručně

Rozdělení textu na malé jednotky (tokens) pro LLM zpracování. Klíčové pro pochopení AI cen a limitů.

Detail a kontext

Tokenization je proces dělení textu na "tokens" pro LLM. Token je často ~3–4 znaky v angličtině, v češtině 2–3 znaky (díky diakritice je čeština "drahá"). "Hello world" = 2 tokens, "Ahoj světe" = 5 tokens. Klíčové pro: 1) ceny AI API (typicky $0.5–$30 per 1M input tokens, $1–$60 per 1M output), 2) context window limity (GPT-4 = 128k, Claude Opus = 200k, Gemini = 2M+), 3) latency (víc tokens = pomalejší). Pro marketing: české texty potřebují víc tokens — 1000 slov CZ ≈ 2500–3000 tokens, 1000 slov EN ≈ 1500 tokens. Calculator: platform.openai.com/tokenizer.

Potřebujete pomoci s tímto pojmem v praxi?

Naučit se teorii je první krok. Implementovat ji efektivně už chce zkušenost. Pojďme se o tom pobavit.

Napište mi