Transformer

Megatron-LM – Massive Transformer Language Model von NVIDIA. 7.3Milliarden Parameter wurde auf 512GPUs 9 Tage trainiert.

Google-Bert, Bidirectional Encoder Representations from Transformers. Steht seit Dezember 2019 in 70 Sprachen zur Verfügung. Laut diesem NVIDIA-Blog können die 450 Millionen Parameter von Bert mit ca. 1500 V100 GPUs in etwa 50 Minuten trainiert werden. In arxiv 1810.04805 wird das Modell vorgestellt. github.com/huggingface/transformers enthält die Library um die Transformer zu nutzen.

Bert steht zwischen GPT-1 (100 Millionen) und GPT-2 (1.5 Milliarden). GPT-2 wurde später auf 8.3 Milliarden Parameter erweitert. Liegt also in der Größenordnung des Megatron-LM.

GPT-3 – 175 Milliarden Parameter

Attention

towardsdatascience.com/attn-illustrated-attention erklärt den in Zusammenhang mit Transformern zentralen Begriff Attention.

Series Navigation<< OptimizerAutoencoder >>