Considere-se a aplicação de um modelo grande de linguagem
(LLM) com 3 bilhões de parâmetros, distribuído em formato não
quantizado, meia-precisão.
A quantidade mínima de memória necessária para carregar os pesos do modelo para inferência (sem gradientes), considerando apenas o espaço ocupado pelos pesos, é:
A quantidade mínima de memória necessária para carregar os pesos do modelo para inferência (sem gradientes), considerando apenas o espaço ocupado pelos pesos, é: