Word Embeddings

Was, wenn Vektoren Bedeutung tragen? Von dummen Zählvektoren zu intelligenten Repräsentationen.

Das Ähnlichkeitsproblem

Zwei Sätze mit ähnlicher Bedeutung. Wie ähnlich sind ihre Vektoren?

Satz A
Satz B
Bag of Words (Wortüberlappung)0.00
Embedding (semantische Ähnlichkeit)0.85
Erkenntnis: BoW erkennt keine Ähnlichkeit, weil die Sätze verschiedene Wörter verwenden. Embeddings verstehen, dass "Hund/Katze" und "rennt/läuft" semantisch verwandt sind.

Wie entstehen Embeddings?

Die Grundidee: "Du erkennst ein Wort an seiner Nachbarschaft." Wörter, die in ähnlichen Kontexten vorkommen, bekommen ähnliche Vektoren.

1 Kontextfenster über den Text schieben
2 Wörter mit ähnlichem Kontext erkennen
"Hund" steht oft neben:
"Katze" steht oft neben:
Erkenntnis: "Hund" und "Katze" teilen viele Kontextwörter. Also sollten ihre Vektoren ähnlich sein!
3 Neuronales Netz lernt die Vektoren
Kontext
"Der ___ frisst"
Word2Vec
Hidden Layer
Vorhersage
"Hund" oder "Katze"?

Die Gewichte des Hidden Layers sind die Embeddings. Nach dem Training: Wörter mit ähnlichem Kontext haben ähnliche Gewichte.

Embedding-Raum (2D-Projektion)

Klicke auf ein Wort, um seine Nachbarn zu sehen. Semantisch ähnliche Wörter liegen nahe beieinander.
Positionen sind handgewählt, um das Prinzip zu veranschaulichen. Echte Embeddings leben in Hunderten von Dimensionen.

Kategorien
Ausgewähltes Wort

Klicke auf ein Wort im Plot...

Tipp: Beachte, wie "König" und "Königin" nahe beieinander liegen, genauso wie "Mann" und "Frau"; aber in einer anderen Richtung!

Wort-Arithmetik

Embeddings ermöglichen Rechnen mit Bedeutung: $\vec{v}_\text{König} - \vec{v}_\text{Mann} + \vec{v}_\text{Frau} \approx \vec{v}_\text{Königin}$

König Mann + Frau = Königin

Die "Geschlechtsrichtung" (König→Königin) ist die gleiche wie (Mann→Frau).

Bias in Embeddings

Embeddings lernen aus Texten und übernehmen dabei gesellschaftliche Stereotype.

Die Skala zeigt die Projektion jedes Wortes auf eine Gender-Achse im Embedding-Raum: 0.0 = stark "weiblich", 0.50 = neutral, 1.0 = stark "männlich". Werte stammen aus vereinfachten Lehrdaten.

Warum? Wenn in Trainingsdaten "Arzt" häufiger mit "er" und "Krankenschwester" häufiger mit "sie" vorkommt, lernt das Modell diese Assoziation. Unabhängig davon, ob sie fair ist.
Debiasing: Durch mathematische Verfahren kann man die Gender-Richtung im Embedding-Raum identifizieren und Berufs-Wörter davon entkoppeln. Die Stereotype werden abgeschwächt.

Kontext: Warum Transformer anders ticken

Klassische Embeddings (Word2Vec): ein Wort = ein Vektor, immer. Transformer: der gleiche Token bekommt je nach Kontext einen anderen Vektor.

Satz 1

"Ich gehe zur Bank, um Geld abzuheben."

→ Geldinstitut
Satz 2

"Ich sitze auf der Bank im Park."

→ Sitzgelegenheit
Word2Vec
Bank
1 Vektor für alles
Transformer (BERT)
Bank
Vektor A
Bank
Vektor B
Kontext bestimmt den Vektor
Zusammenhang: Transformer verwenden Subword-Tokenisierung (BPE) und erzeugen für jeden Token einen kontextabhängigen Embedding-Vektor durch den Attention-Mechanismus. So kann dasselbe Wort je nach Satz völlig unterschiedlich repräsentiert werden.