- Darstellung von Text im Kontext von NLP
- Keras Tokenizer
- LSTM Sammelsurium
- Optimizer
- Transformer
- Autoencoder
1-hot encoding
Jedes Wort wird als Vektor dargestellt. Die Dimension entspricht der Anzahl der unterschiedlichen Wörter im betrachteten Corpus.
Beispiel: „ich werde es versuchen aber ich verspreche nichts“
Die Vektoren für die Darstellung der Worte wäre zum Beispiel
1 0 0 0 0 0 0 - ICH
0 1 0 0 0 0 0 - WERDE
0 0 1 0 0 0 0 - ES
0 0 0 1 0 0 0 - VERSUCHEN
0 0 0 0 1 0 0 - ABER
0 0 0 0 0 1 0 - VERSPRECHE
0 0 0 0 0 0 1 - NICHTS
Word Embedding
Um den gesamten Wortschatz einer Sprache in solchen Vektoren darzustellen werden über eine Million Dimensionen gebraucht. Der Einfache Satz oben hätte in der Darstellung also etwa 7MB. Um dem Herr zu werden, entwickelt man Word-Embeddins. Das sind Tranformationen in niedriger dimensionale Räume in denen zusätzlich (bedeutungs-)ähnliche Worte ähnliche Koordinaten besitzen. Stichwort: z.B. Word2Vec
n-gram
n-Grame gibt es auf Basis von Buchstaben oder Worten.
Ein n-Gram ist eine Liste aller vorkommenden Sequenzen der Länge n in einem Text.
Beispiel auf Basis von Buchstaben: ich gehe
2-Gram: ic, ch, h_ , _g, ge, eh, he
3-Gram: ich, ch_, c_g, _ge, geh, ehe
Beispiel auf Basis von Worten: es ist wie es ist
2-Gram: es ist, ist wie, wie es, es ist
3-Gram: es ist wie, ist wie es, wie es it
Google bietet verschiedene 1- bis 5-Gramme zum Download an. Sie wurden aus Texten von 1500 bis 2008 erstellt.
bag-of-words
Es handelt sich um eine Statistik über die Häufigkeit der verschiedenen Worte in einem Text. Der Naive Bayes Classifier, verwendet die Wort-Häufigkeiten um Wahrscheinlichkeiten einer Klasse (positiv, negativ, traurig, fröhlich, witzig, …) und die bedingte Wahrscheinlichkeit jedes Wortes einer Klasse zu berechnen.
Vektor Semantik
Durch Embedding wird die Bedeutung von Wörtern modelliert. Die Darstellung eines Wortes soll auch die Bedeutung des Wortes in Kontext der sie umgebenden Wörter enthalten. Mit Word2Vec und GloVe werden verwandte Wörter in ähnliche Vektoren mit ca 300 Dimensionen umgewandelt.
Wort-Dokument-Darstellung
Wenn man Wort-Statistiken auf Texte anwendet kann das gesamte Dokument durch einen einzelnen Vektor dargestellt werden, der ähnliche Texte in ähnliche Vektoren umwandelt.