Tokenisierung

Der erste Schritt in NLP: Text in verarbeitbare Einheiten zerlegen. Verschiedene Strategien, ein Text.

Live-Tokenizer

Stopwörter entfernen

Statistik

Tokens 0

Unique 0

Zeichen 0

Strategie: Trennt am Leerzeichen. Einfach, aber Satzzeichen bleiben an Wörtern kleben.

Stopwort-Liste (aufklappen)

Warum Whitespace nicht reicht

Whitespace-Tokenisierung funktioniert leidlich für Deutsch und Englisch. Aber viele Sprachen haben andere Regeln.

Deutsch Whitespace trennt Wörter

"Ich gehe in die Schule"

5 Tokens. Jedes Wort ist eine sinnvolle Einheit.

Koreanisch Partikel kleben am Wort

"나는 학교에 간다"

Chinesisch Keine Leerzeichen zwischen Wörtern

"我去学校上课"

Deutsch Komposita-Problem

"Donaudampfschifffahrtskapitän"

Fazit: Whitespace-Tokenisierung ist sprachabhängig und fragil. Deshalb nutzen moderne Modelle subwort-basierte Verfahren wie BPE, die sprachunabhängig aus Daten lernen.

Byte Pair Encoding (BPE)

So tokenisieren moderne Transformer: Häufige Zeichenpaare werden schrittweise zu neuen Tokens zusammengefasst.

Trainings-Korpus

Tokenisierung nach Schritt 0

Häufigste Paare

Berechne...

Merge-Verlauf

Noch keine Merges.

Gelerntes Vokabular

Noch nur Einzelzeichen.

Prinzip: Starte mit einzelnen Zeichen. Finde das häufigste Zeichenpaar, fasse es zu einem neuen Token zusammen. Wiederhole, bis die gewünschte Vokabulargröße erreicht ist.

$\text{merge}(a, b) \rightarrow ab \quad\text{wobei}\quad \text{freq}(a,b) = \max$