Text-Repräsentation
Computer verstehen keine Wörter. Sie brauchen Zahlen. Hier lernst du drei Wege, Text in Vektoren zu verwandeln.
1
One-Hot Encoding
Jedes Wort bekommt einen eigenen Vektor: genau eine 1, alle anderen Stellen 0.
Klicke auf ein Wort, um seinen Vektor zu sehen. Klicke zwei Wörter, um sie zu vergleichen.
Wähle ein Wort aus, um seinen Vektor zu sehen.
2
Bag of Words
Zähle, wie oft jedes Wort im Dokument vorkommt. Das Ergebnis ist ein Zähl-Vektor.
Gleiches Vokabular, andere Bedeutung:
Satz 1
Satz 2
Identische BoW-Vektoren!
1
2
3
$\vec{d} = (c_1, c_2, \ldots, c_{|V|})$ wobei $c_i$ = wie oft Wort $i$ vorkommt
3
TF-IDF
Nicht alle Wörter sind gleich wichtig. TF-IDF gewichtet seltene Wörter hoch und häufige Wörter herunter.
$\text{tfidf}(t,d) = \underbrace{\frac{c(t,d)}{|d|}}_{\text{TF: Häufigkeit}} \cdot \underbrace{\log\frac{N}{\text{df}(t)}}_{\text{IDF: Seltenheit}}$
Wort in vielen Dokumenten → IDF sinkt → weniger Gewicht. Wort nur in einem Dokument → IDF steigt → mehr Gewicht.