Word Embeddings
Was, wenn Vektoren Bedeutung tragen? Von dummen Zählvektoren zu intelligenten Repräsentationen.
Das Ähnlichkeitsproblem
Zwei Sätze mit ähnlicher Bedeutung. Wie ähnlich sind ihre Vektoren?
Wie entstehen Embeddings?
Die Grundidee: "Du erkennst ein Wort an seiner Nachbarschaft." Wörter, die in ähnlichen Kontexten vorkommen, bekommen ähnliche Vektoren.
Die Gewichte des Hidden Layers sind die Embeddings. Nach dem Training: Wörter mit ähnlichem Kontext haben ähnliche Gewichte.
Embedding-Raum (2D-Projektion)
Klicke auf ein Wort, um seine Nachbarn zu sehen. Semantisch ähnliche Wörter liegen nahe beieinander.
Positionen sind handgewählt, um das Prinzip zu veranschaulichen. Echte Embeddings leben in Hunderten von Dimensionen.
Klicke auf ein Wort im Plot...
Wort-Arithmetik
Embeddings ermöglichen Rechnen mit Bedeutung: $\vec{v}_\text{König} - \vec{v}_\text{Mann} + \vec{v}_\text{Frau} \approx \vec{v}_\text{Königin}$
Die "Geschlechtsrichtung" (König→Königin) ist die gleiche wie (Mann→Frau).
Bias in Embeddings
Embeddings lernen aus Texten und übernehmen dabei gesellschaftliche Stereotype.
Die Skala zeigt die Projektion jedes Wortes auf eine Gender-Achse im Embedding-Raum: 0.0 = stark "weiblich", 0.50 = neutral, 1.0 = stark "männlich". Werte stammen aus vereinfachten Lehrdaten.
Kontext: Warum Transformer anders ticken
Klassische Embeddings (Word2Vec): ein Wort = ein Vektor, immer. Transformer: der gleiche Token bekommt je nach Kontext einen anderen Vektor.
"Ich gehe zur Bank, um Geld abzuheben."
"Ich sitze auf der Bank im Park."