Flash Attention

LLM【スケール則：実装と検証B-4】

Transformerモデルの総計算量（FLOPs）の計算方法と、実装での計算効率測定を詳解。メモリバンド幅、通信オーバーヘッド、ハードウェア効率の改善テクニックを学びます。

実装と検証

LLM【事前学習：実装詳細B-６】

Transformer進化系とスケーリング最適化：ALBERT, GQA, Flash Attentionの革新オリジナルのTransformer（2017年）から7年、多くの革新的な改良が積み重ねられてきました。本記事では、現代の大規模L...