LoRA

LLM

[LLM] 微調整の全手法を整理し、実務での最適解を一気に理解するためのガイド

この記事のゴール本記事では、以下の“判断軸”を最短時間で獲得します。RLHF と DPO のどちらを使うべきか、一発で決められるLoRA を中心とした PEFT の選び方が分かるGPU メモリの制約下で最適な戦略が立てられるbfloat16...