Os modelos Gemma 4 usam um truque de treinamento para reduzir o consumo de memória

gasuportetech

3 horas atrás

O gráfico promocional dos modelos Gemma 4 QAT.

Os modelos Gemma 4 agora estão disponíveis para download com treinamento com reconhecimento de quantização (QAT), que reduz o tamanho e o consumo de memória dos modelos.
Esses modelos de código aberto retêm melhor a qualidade graças ao QAT em comparação com aqueles que usam quantização pós-treinamento (PTQ).
Os modelos Gemma 4 otimizados com QAT estão disponíveis em cinco tamanhos: Gemma 4 E2B, Gemma 4 E4B, Gemma 4 12B, Gemma 4 26B A4B e Gemma 4 31B.

Após o lançamento do modelo Gemma 4 12B para laptop pelo Google no início desta semana, a empresa está lançando novos pontos de verificação do modelo Gemma 4 com treinamento ciente de quantização. A quantização é necessária para reduzir a quantidade de memória necessária para executar modelos leves. O método padrão é a quantização pós-treinamento (PTQ), que quantiza o modelo após o treinamento, mas pode resultar em desempenho mais fraco. As versões mais recentes do Gemma 4 usam treinamento com reconhecimento de quantização (QAT) para reduzir a perda de qualidade do modelo e acelerar a velocidade de decodificação, de acordo com o Google postagem no blog.

O Google afirma que incorporar a quantização ao processo de treinamento resulta em pontos de verificação com melhor desempenho do que modelos refinados com PTQ. Os modelos compactados funcionam bem em telefones e laptops graças a um esquema personalizado de quantização móvel. Isso envolve o uso de configurações pré-calculadas, compactação de 2 bits em certas partes do modelo e lista de vocabulário e compactação de memória de curto prazo. Para o usuário, isso resulta em um modelo menor que consome menos memória do sistema.

Não quero perder o melhor de Autoridade Android?

Existem vários tamanhos de modelo disponíveis com otimização QAT, incluindo Gemma 4 E2B, Gemma 4 E4B, Gemma 4 12B, Gemma 4 26B A4B e Gemma 4 31B. As versões menores, como o modelo Gemma 4 E2B somente texto, requerem menos de um gigabyte de memória para funcionar. Esses pequenos pontos de verificação Gemma 4 sem requisitos intensivos de recursos são ideais para execução em telefones.

O Google compartilhou os requisitos aproximados de memória para carregar os novos modelos Gemma 4 com QAT em vários tamanhos:

Existem quatro formatos diferentes de modelos Gemma 4 QAT disponíveis para download: pontos de verificação QAT não quantizados, formato unificado gerado por GPT (GGUF), otimizado para dispositivos móveis e tensores compactados. Esses modelos preservam “qualidade semelhante ao bfloat16, ao mesmo tempo que reduzem drasticamente os requisitos de memória para carregar o modelo”, segundo o Google.

Depois de baixar os pesos do modelo Gemma 4 QAT, os usuários podem executar os pontos de verificação em seus telefones, laptops ou desktops. Você pode encontrar o móvel e modelos de mesa em Hugging Face, bem como em Estúdio LM.

Obrigado por fazer parte da nossa comunidade. Leia nossa Política de Comentários antes de postar.