No início deste mês, o Google revelou seu mais recente e poderoso Gema 4 Modelos de IA que você pode executar em seu próprio hardware. Gemma compete em desempenho com outros modelos como GLM5 e Qwen3.5, mas seu modelo fechado Gemini continua sendo o carro-chefe para enfrentar OpenAI e Anthropic. Ainda assim, a notícia interessante é que o Gemma 4 possui versões pequenas o suficiente para rodar no seu smartphone.
Especificamente, Gemma 4 E2B e E4B são destilados em pegadas efetivas de dois e quatro bilhões de parâmetros. Com apenas 4,2 GB e 5,9 GB, eles cabem mais facilmente em telefones com 12 GB de RAM ou mais. Estas são também as bases para os modelos de smartphones Gemini Nano da próxima geração do Google – Gemini Nano 4 Fast e Nano 4 Full – com lançamento previsto para o final deste ano.
O Google observa que os novos modelos oferecem raciocínio aprimorado, habilidades matemáticas, compreensão do tempo e recursos de imagem. O modelo Full retém maior poder de raciocínio para tarefas complexas, enquanto Fast é otimizado para respostas de menor latência. Na verdade, o Google afirma que o modelo Fast é até 4x mais rápido que as versões anteriores e consome até 60% menos bateria quando executado na TPU.
Gemma 4 promete ser a ferramenta de IA no dispositivo mais rápida e inteligente do Google.
Tudo isso parece bastante impressionante e, para ajudar os desenvolvedores a começarem a integrar esses modelos com seus aplicativos Android, o Google lançou acesso antecipado ao Gemini Nano 4 por meio de um AICore Developer Preview. Peguei uma cópia do aplicativo no meu Google Pixel 10 Pro XL, que permite executar esses modelos de IA na TPU do Tensor G5, para ver que tipo de melhorias podem ser oferecidas quando o Nano 4 chegar no horário nobre.
O aplicativo AICore Developer Preview oferece acesso ao Gemini Nano 3, Nano 4 Fast e Nano 4 Full, então decidi fazer comparações com o modelo convencional existente para avaliar melhor exatamente o que está mudando. Claro, as coisas podem ser ajustadas aqui e ali antes do lançamento completo, mas vamos começar de qualquer maneira.
O Google está se concentrando demais na IA em detrimento do hardware?
731 votos
Testando alguns prompts

Robert Triggs / Autoridade Android
A primeira coisa que eu queria verificar era o desempenho de todos esses modelos em tarefas que você poderia razoavelmente executar em um modelo de IA no dispositivo. Nada enorme ou com várias etapas. Em vez disso, concentrei-me em instruções de lógica, matemática e resumo de texto para ver como eles se saíram.
Por mais inteligentes que sejam os LLMs de IA modernos, eles ainda são suscetíveis a erros muito bobos – especialmente quando condensados em tão poucos parâmetros. Consegui pegar todos os três com o clássico r na questão do morango. No entanto, o Nano 4 Full realmente acertou se eu coloquei R em maiúscula. Não está claro por que isso é importante, mas essas peculiaridades são comuns em modelos de linguagem grandes. O Nano 3 também cometeu um erro com uma rápida questão de álgebra, reforçando as afirmações do Google de que seu novo Nano é realmente melhor em matemática e raciocínio.
Apesar de alguns erros, todos os três modelos produziram resultados bastante decentes nas instruções lógicas e de resumo de texto que lhes dei. A tabela abaixo mostra apenas alguns dos prompts que experimentei.
| Incitar | Gêmeos Nano 3 | Gêmeos Nano 4 Rápido | Gêmeos Nano 4 Completo |
|---|---|---|---|
| Incitar
Você compra 3 itens por $ 4,70 cada e paga com $ 20. Que mudança você consegue? |
Gêmeos Nano 3
Veja como calcular a mudança:
* **Custo dos itens:** 3 itens * US$ 4,70/item = US$ 14,10 Você recebe $ 5,90 em troco. |
Gêmeos Nano 4 Rápido
“Veja como calcular o troco: **1. Calcule o custo total dos itens:** * 3 itens * $ 4,70/item = $ 14,10 **2. Calcule o troco: ** * Total pago – Custo total = troco * $ 20,00 – $ 14,10 = $ 5,90 **Resposta: ** Você recebe **$ 5,90 ** em troco. “ |
Gêmeos Nano 4 Completo
Veja como resolver o problema: 1. **Calcule o custo total:** 3 itens * $4,70/item = $14,10 2. **Calcule o troco:** $20,00 (valor pago) – $14,10 (custo total) = $5,90 Você receberá **$5,90** em troco. |
| Incitar
Quantos r tem a palavra morango? |
Gêmeos Nano 3
Existe um “r” na palavra morango. |
Gêmeos Nano 4 Rápido
Existem **dois** “r”s na palavra “morango”. |
Gêmeos Nano 4 Completo
Existem **dois** “r”s na palavra “morango”. |
| Incitar
O evento será às 18h do dia 18 de agosto, e um lembrete deverá ser enviado 10 horas antes do evento. Retorne a hora e a data em que o lembrete deve ser enviado |
Gêmeos Nano 3
“O lembrete deve ser enviado às **8h do dia 18 de agosto**. Aqui está o detalhamento: * Horário do evento: 18h do dia 18 de agosto * Horário do lembrete antes do evento: 10 horas * Cálculo: 18h – 10 horas = 8h” |
Gêmeos Nano 4 Rápido
“Veja como calcular a hora e a data do lembrete: * **Horário do evento:** 18h do dia 18 de agosto * **Horário do lembrete:** 10 horas antes do evento **Cálculo:** 1. **Subtraia 10 horas das 18h:** * 18h menos 6 horas é 12h (meio-dia) no mesmo dia (18 de agosto). * Você ainda precisa para subtrair mais 4 horas (10 – 6 = 4 * 12h menos 4 horas é 8h **O lembrete deve ser enviado às 8h do dia 18 de agosto.**” |
Gêmeos Nano 4 Completo
O lembrete deverá ser enviado no dia **18 de agosto às 8h**. |
| Incitar
Sem escrever etapas, resolva: 3x+27=48 |
Gêmeos Nano 3
x = 8 |
Gêmeos Nano 4 Rápido
“$3x = 48 – 27$ $3x = 21$ $x = \frac{21}{3}$ $x = 7$” |
Gêmeos Nano 4 Completo
$3x = 21$ $x = 7$ |
| Incitar
Resuma as principais informações deste texto em uma única frase: |
Gêmeos Nano 3
Embora a satisfação do cliente tenha aumentado após uma reformulação, uma queda significativa nas taxas de resposta à pesquisa levanta preocupações sobre a confiabilidade e a representatividade da melhoria relatada. |
Gêmeos Nano 4 Rápido
A satisfação do cliente melhorou significativamente após uma reformulação, mas a queda nas taxas de resposta ao inquérito sugere que a melhoria pode ser distorcida por uma amostra mais pequena e potencialmente tendenciosa. |
Gêmeos Nano 4 Completo
Embora a satisfação do cliente tenha aumentado significativamente após a reformulação, a credibilidade do relatório é questionada devido a uma queda de quase 50% nas taxas de resposta à pesquisa. |
Mesmo depois de algumas solicitações, percebi alguns temas comuns e diferenças entre os modelos do Google. É mais provável que o Nano 4 produza respostas detalhadas e gaste mais tempo pensando em suas etapas, mesmo quando você pede explicitamente que não o faça. É um pouco menos direto, o que, embora tenha vantagens em termos de precisão, pode significar que solicitações diretas simples geram várias respostas possíveis que você talvez não queira. Isto é particularmente verdadeiro para o modelo Fast, enquanto o Nano 4 Full às vezes é mais confiante em dar uma resposta concisa.
Mesmo em meus testes curtos, é seguro dizer que o novo Nano 4 Full oferece as melhores respostas em termos de precisão e concisão, mas é bastante lento. Nano 4 Fast é mais preciso que Nano 3, mas também é muito mais detalhado, o que pode não agradar a todos os usuários (inclusive eu). Dito isto, o Google diz que há um grande aumento de velocidade aqui, então vamos ver se vale a pena compensar.
Quão rápido é o Nano 4 rápido?
O aplicativo de desenvolvimento AICore do Google também rastreia o tempo de inferência – em outras palavras, quanto tempo levou desde o envio do prompt até a produção do resultado. Certifiquei-me de que o modelo fosse carregado primeiro para cada teste, pois isso pode influenciar os resultados iniciais, e mantive um log para cada prompt de teste.
No entanto, como você viu, os comprimentos dos resultados variam de acordo com o modelo, então contei o número de caracteres na saída. Supondo que o Gemini Nano use os mesmos quatro caracteres por token que o Gemma, podemos calcular o número de tokens gerados por segundo, uma métrica clássica para monitorar o desempenho da geração de texto de IA. Aqui estão os resultados.

Robert Triggs / Autoridade Android
Normalmente, podemos ler cerca de 5 a 10 tokens por segundo, o que o torna uma boa referência para a rapidez com que queremos que os resultados apareçam, no mínimo. No entanto, tarefas como codificação são idealmente ainda mais rápidas.
Como podemos ver, o Gemini Nano 3 já era bastante aceitável nesse aspecto, com média de 9,6 t/s em toda a gama de prompts que testei. O próximo Gemini Nano 4 Fast é ainda mais rápido. Sua média é de 19,14 t/s, tornando suas saídas muito mais rápidas do que um ser humano consegue ler facilmente. Isso não é 4x mais rápido, mas cerca de 2x em média, com espaço para ser mais rápido ainda nos melhores cenários.
Como esperado, o Gemini Nano 4 Full é muito mais lento que o Fast e também é lento em comparação com o modelo de última geração. Produz uma média de 5,3 t/s, quase aceitável para um leitor lento. No entanto, algumas tarefas são mais lentas do que isso, com alguns resultados tão baixos quanto 2 t/s, o que é bastante doloroso. Conseqüentemente, o Google planeja usar este modelo para tarefas complexas, mas menos urgentes.
Gemini Nano 4 Fast é mais rápido, mas também mais falante.
Apesar da aparente vantagem de velocidade do Gemini Nano 4 Fast na produção bruta, há uma advertência importante. 4 Rápido é normalmente o mais detalhado dos três modelos testados aqui, produzindo regularmente 50% mais texto e às vezes até o dobro da quantidade para a mesma consulta. Embora isso signifique que ele pode fornecer respostas mais completas em um curto espaço de tempo, também significa que o modelo nem sempre é o mais rápido na conclusão de uma resposta completa. Às vezes também é excessivamente tagarela, dando respostas mais longas e sinuosas do que o Nano 4 Full.

Robert Triggs / Autoridade Android
O resultado final é que o Nano 4 Fast geralmente tem um desempenho semelhante ao Nano 3 em geral; às vezes mais rápido, mas muitas vezes um pouco mais lento para terminar. Se você prefere que suas respostas de IA sejam rápidas e concisas ou cheias de explicações passo a passo, provavelmente determinará se você ama ou odeia essa mudança. Devido à sua lenta taxa de tokens, o Nano 4 Full é sempre o mais lento em meus testes.
Prepare-se para o Gemini Nano 4

Robert Triggs / Autoridade Android
Embora observemos os recursos do Gemini Nano 4, embora uma interface básica de desenvolvedor não faça justiça ao produto final, ela nos permitiu vislumbrar alguns dos recursos que ele oferecerá quando incorporado aos próprios serviços do Google e aplicativos de terceiros nos próximos meses.
Embora não seja inovador em termos de respostas que recebi durante os testes, a combinação das respostas rápidas do Nano 4 Fast e da melhor precisão do Nano 4 Full definitivamente torna esta atualização significativa. É importante ressaltar que o Nano 4 será executado em aceleradores de IA nos chipsets mais recentes do Google, MediaTek e Qualcomm (sem nenhuma palavra sobre o Exynos da Samsung), além de suporte de CPU em processadores mais antigos e outros. Isso garante que a maior parte do ecossistema Android possa se beneficiar dos ganhos prometidos de desempenho e eficiência energética quando for lançado nos dispositivos ainda este ano.
Com a chamada de ferramentas e o modo de pensamento ainda por vir, o Nano 4 pode trazer grande poder para a IA no dispositivo.
Devo advertir isso observando que pequenos modelos de dois e quatro bilhões de parâmetros nunca irão competir com a precisão e as capacidades das centenas de bilhões de LLMs de parâmetros que você pode acessar por meio de uma infraestrutura de nuvem cara. Mas para completar tarefas pequenas e simples com baixa latência e a privacidade adicional do processamento no dispositivo, o Nano 4 é um avanço promissor.
E isso é apenas o começo, o Google planeja continuar melhorando seus modelos mais recentes em dispositivos com recursos avançados em um futuro próximo. O Gemini Nano 4 está configurado para oferecer suporte a chamadas de ferramentas, saídas estruturadas, prompts do sistema e um modo de pensamento que aproximará o Nano do conjunto de recursos disponíveis em outras plataformas de IA maiores, muitas vezes dependentes da nuvem. O suporte de ferramentas é essencial se o Google planejar combinar conceitos como Gemini Agent com os benefícios de segurança e latência da IA no dispositivo.
Se você deseja explorar o que é possível com Gemma 4 e Gemma 3 (bem como versões pequenas de DeepSeek e Qwen), você deve verificar a AI Edge Gallery do Google – uma maneira mais fácil de explorar bate-papos de texto mais longos, consultar imagens e transcrever áudio com IA.
Não quero perder o melhor de Autoridade Android?


Obrigado por fazer parte da nossa comunidade. Leia nossa Política de Comentários antes de postar.
