技術解説
llama.cppとは——CPUでLLMを動かすC++実装の仕組みと使い道
llama.cppはGPUなしでLLMを動かすことを可能にしたC++実装のオープンソースプロジェクト。そのアーキテクチャ、CUDAなしで高速推論できる理由、OllamaやLM Studioとの関係まで解説します。
Tag
2件の記事
llama.cppはGPUなしでLLMを動かすことを可能にしたC++実装のオープンソースプロジェクト。そのアーキテクチャ、CUDAなしで高速推論できる理由、OllamaやLM Studioとの関係まで解説します。
GGUFはローカル環境でLLMを動かすための量子化モデルフォーマットです。GGMLとの違い、Ollamaでの利用方法、Q4やQ8といった量子化レベルとメモリ要件の計算法まで分かりやすく解説します。