Tudo sobre Google
Tudo sobre Lucidez Sintético
A Google DeepMind lançou o Genie 3 nesta terça-feira (05). É a novidade versão de seu padrão de perceptibilidade sintético (IA) capaz de gerar “mundos” em 3D interativos em tempo real para usuários e agentes de IA.
Entre as melhorias prometidas para o padrão, estão mais tempo para interações e a capacidade de lembrar a posição de objetos mesmo quando o usuário desvia o olhar.
No entanto, provavelmente nascente não será um padrão que você poderá testar por conta própria. Ele chega uma vez que uma “prévia limitada para pesquisa”, conseguível unicamente a “um pequeno grupo de acadêmicos e criadores”.
Por que? Segundo o Google, para que os desenvolvedores possam entender melhor os riscos e uma vez que mitigá-los de forma apropriada.
Genie 3: o que é e uma vez que funciona o novo padrão de IA do Google DeepMind
Modelos uma vez que o Genie são sistemas de IA projetados para simular ambientes com diversos propósitos – por exemplo: instrução, entretenimento e treinamento de robôs.
Eles funcionam a partir de comandos fornecidos pelos usuários, gerando espaços navegáveis semelhantes a videogames. A diferença é que esses são totalmente criados por IA.
Em conferência ao Genie 2, lançado em dezembro de 2024, o Genie 3 representa um progresso importante. Isso porque combina capacidades do predecessor com as do Veo 3, padrão de IA do Google gera vídeos e entende melhor as leis da física.
Na prática, isso permite experiências mais realistas e duradouras nos “mundos” criados por meio do Genie 3, segundo postagem no blog do Google.
“O Genie 3 é o primeiro padrão de mundo interativo, em tempo real e de uso universal”, disse Shlomi Fruchter, diretor de pesquisa da DeepMind, durante uma coletiva de prelo (via TechCrunch).
“Ele vai além dos modelos de mundo restritos que existiam até agora. Não é específico de nenhum envolvente em pessoal”, disse Fruchter. “Pode gerar tanto mundos fotorrealistas quanto imaginários — e tudo entre esses dois extremos.”
Agora, os usuários agora poderão interagir com os mundos por alguns minutos, o que supera a limitação de 20 segundos do padrão anterior.
Outro aprimoramento importante está na memória visual. O Genie 3 mantém a posição de objetos por até um minuto. Assim, ambientes ficam mais consistentes.
Ou por outra, os “mundos” serão renderizados em solução 720p e com taxa de 24 frames por segundo (fps).
A DeepMind também informou que vai incorporando eventos ativáveis por comando. Isso permite ao usuário, por exemplo, mudar o clima de um “mundo” ou aditar personagens por meio de prompts.
No entanto, existem várias restrições – por exemplo: as maneiras limitadas pelas quais os usuários podem interagir com os mundos gerados. E o vestimenta de que textos legíveis só são gerados quando fornecidos na descrição do mundo inserida pelo usuário.
Leia mais:
Passo para a AGI?
O Genie 3, segundo Fruchter, tem aplicações promissoras em áreas uma vez que instrução, jogos e prototipagem criativa. Mas seu verdadeiro valor está no treinamento de agentes de IA para tarefas de uso universal, um tanto crucial para o progresso rumo à perceptibilidade sintético universal (AGI).
“Acreditamos que os modelos de mundo são fundamentais no caminho rumo à AGI, principalmente para agentes incorporados, nos quais simular cenários do mundo real é particularmente reptador”, disse Jack Parker-Holder, pesquisador da DeepMind, durante a coletiva.
Dissemelhante de motores de física tradicionais, o Genie 3 aprende sozinho uma vez que o mundo funciona. Inspirado no Veo, ele observa uma vez que objetos se movimentam e interagem, “raciocinando” com base no que já foi gerado. Isso permite ao sistema gerar simulações mais realistas e adaptativas.
“O padrão é autoregressivo, o que significa que gera um quadro por vez”, disse Fruchter em entrevista ao TechCrunch. “Ele precisa olhar para o que foi gerado anteriormente para resolver o que acontecerá a seguir. Essa é uma secção fundamental da arquitetura.”
Essa memória e consistência visual permitem que o Genie 3 desenvolva uma noção de física semelhante à dos humanos. A DeepMind destaca que isso cria oportunidades para que agentes de IA aprendam por meio da experiência prática, da mesma forma que os humanos aprendem no mundo real.
Nascente: Olhar Do dedo