.. Arquivo mestre da documentação do Local Inference Calculator Local Inference Calculator =========================== Bem-vindo à documentação do **Local Inference Calculator** - uma ferramenta de capacity planning para inferência local de Large Language Models (LLMs). Esta ferramenta permite estimar rapidamente quais modelos de linguagem podem rodar em determinadas GPUs, considerando o tamanho do contexto e a precisão/quantização dos modelos. .. toctree:: :maxdepth: 2 :caption: Conteúdo: instalacao uso glossario api exemplos Visão Geral =========== O *Local Inference Calculator* foi desenvolvido para responder a uma pergunta simples: **"Com essa GPU e esse tamanho de contexto, quais modelos LLM consigo rodar?"** A ferramenta considera: * **Parâmetros do modelo**: Memória base necessária para armazenar os pesos * **Overhead**: Memória adicional para runtime, activations, etc. * **KV Cache**: Memória para cache de attention durante inferência * **Precisão/Quantização**: FP32, FP16, INT8 ou INT4 Funcionalidades --------------- * Suporte a modelos de 7B a 180B parâmetros * Base de dados com 38 GPUs (consumer + datacenter) * Cálculos conservadores para garantir viabilidade real * Exportar resultados em JSON e CSV * Interface de linha de comando (CLI) Outros Idiomas =============== * **English**: Execute ``make html LANG=en`` e abra ``docs/_build/en/html/index.html`` Índices e Tabelas ================= * :ref:`genindex` * :ref:`modindex` * :ref:`search`