Tokenisierung
Der erste Schritt in NLP: Text in verarbeitbare Einheiten zerlegen. Verschiedene Strategien, ein Text.
Live-Tokenizer
Statistik
Tokens
0
Unique
0
Zeichen
0
Strategie:
Trennt am Leerzeichen. Einfach, aber Satzzeichen bleiben an Wörtern kleben.
Stopwort-Liste (aufklappen)
Warum Whitespace nicht reicht
Whitespace-Tokenisierung funktioniert leidlich für Deutsch und Englisch. Aber viele Sprachen haben andere Regeln.
Deutsch
Whitespace trennt Wörter
"Ich gehe in die Schule"
5 Tokens. Jedes Wort ist eine sinnvolle Einheit.
Koreanisch
Partikel kleben am Wort
"나는 학교에 간다"
Chinesisch
Keine Leerzeichen zwischen Wörtern
"我去学校上课"
Deutsch
Komposita-Problem
"Donaudampfschifffahrtskapitän"
Fazit: Whitespace-Tokenisierung ist sprachabhängig und fragil. Deshalb nutzen moderne Modelle subwort-basierte Verfahren wie BPE, die sprachunabhängig aus Daten lernen.
Byte Pair Encoding (BPE)
So tokenisieren moderne Transformer: Häufige Zeichenpaare werden schrittweise zu neuen Tokens zusammengefasst.
Trainings-Korpus
Tokenisierung nach Schritt 0
Häufigste Paare
Berechne...
Merge-Verlauf
Noch keine Merges.
Gelerntes Vokabular
Noch nur Einzelzeichen.
Prinzip: Starte mit einzelnen Zeichen. Finde das häufigste Zeichenpaar, fasse es zu einem neuen Token zusammen. Wiederhole, bis die gewünschte Vokabulargröße erreicht ist.
$\text{merge}(a, b) \rightarrow ab \quad\text{wobei}\quad \text{freq}(a,b) = \max$