GPU最適化

実装と検証

LLM【スケール則:実装と検証B-4】

Transformerモデルの総計算量(FLOPs)の計算方法と、実装での計算効率測定を詳解。メモリバンド幅、通信オーバーヘッド、ハードウェア効率の改善テクニックを学びます。