Local Inference Calculator

Bem-vindo à documentação do Local Inference Calculator - uma ferramenta de capacity planning para inferência local de Large Language Models (LLMs).

Esta ferramenta permite estimar rapidamente quais modelos de linguagem podem rodar em determinadas GPUs, considerando o tamanho do contexto e a precisão/quantização dos modelos.

Conteúdo:

Visão Geral

O Local Inference Calculator foi desenvolvido para responder a uma pergunta simples:

“Com essa GPU e esse tamanho de contexto, quais modelos LLM consigo rodar?”

A ferramenta considera:

Parâmetros do modelo: Memória base necessária para armazenar os pesos
Overhead: Memória adicional para runtime, activations, etc.
KV Cache: Memória para cache de attention durante inferência
Precisão/Quantização: FP32, FP16, INT8 ou INT4

Funcionalidades

Suporte a modelos de 7B a 180B parâmetros
Base de dados com 38 GPUs (consumer + datacenter)
Cálculos conservadores para garantir viabilidade real
Exportar resultados em JSON e CSV
Interface de linha de comando (CLI)

Outros Idiomas

English: Execute make html LANG=en e abra docs/_build/en/html/index.html

Local Inference Calculator

Visão Geral

Funcionalidades

Outros Idiomas

Índices e Tabelas