CNN
—
A mais recente inovação da Google na área da inteligência artificial, chamada Whisk, permite que usuários façam o upload de fotos e recebam uma imagem gerada pela IA sem precisar inserir qualquer texto para descrever o que desejam. Essa abordagem inovadora promete não apenas revolucionar a maneira como interagimos com as ferramentas de edição de imagem, mas também estimular a criatividade de maneira divertida e acessível.
Os usuários podem fazer upload de imagens que retratam os assuntos, cenários e estilos que desejam, e a ferramenta Whisk combina tudo isso em uma única imagem. Isso significa que, no lugar de descrever o que querem com palavras, os usuários podem simplesmente mostrar suas ideias através de imagens.
Whisk é definido pela Google como uma “ferramenta criativa” destinada a inspirar rapidamente os usuários, em vez de ser um “editor de imagem tradicional”. A ideia é que o Whisk funcione como um recurso divertido, permitindo que os usuários explorem sua criatividade sem a pressão de produzir algo refinado ou profissional.
No contexto atual de intensa competição entre gigantes da tecnologia como Google e OpenAI, o lançamento do Whisk ressalta a corrida das empresas para apresentar produtos que demonstrem as aplicações práticas de tecnologias inovadoras. Essa curva de desenvolvimento, no entanto, levanta preocupações entre críticos sobre a falta de diretrizes adequadas que garantam um desenvolvimento responsável da inteligência artificial e que protejam a humanidade de possíveis riscos associados.
Desde que a OpenAI lançou o Dall-E, sua ferramenta de criação de imagens a partir de texto, em 2021, a popularidade das artes geradas por IA explodiu nas redes sociais, tornando-se um dos assuntos mais discutidos em diversas plataformas. O Whisk da Google se destaca como um gerador de imagem a partir de imagem, ampliando essa tendência desde o conceito iniciado pelos geradores de texto para imagem.
Os usuários do Whisk têm a possibilidade de “remixar” a imagem final, alterando os inputs e misturando categorias para criar diferentes tipos de imagens, como um brinquedo de pelúcia ou um adesivo. Embora proporcionar a inserção de texto para orientar detalhes específicos seja uma opção disponível, não é um requisito para a criação da imagem.
“O Whisk foi projetado para permitir que os usuários remixem um assunto, cena e estilo de novas e criativas formas, oferecendo uma exploração visual rápida, ao invés de edições precisas em pixels”, explicou Thomas Iljic, diretor de gerenciamento de produtos da Google Labs, em um comunicado oficial. Essa abordagem ressalta não apenas a eficácia da ferramenta, mas também a sua intenção de servir como um estímulo à criatividade do usuário.
A plataforma Whisk é construída sobre a inteligência artificial generativa desenvolvida pela DeepMind, laboratório de IA adquirido pela Google em 2014. Esta relação evidencia o avanço contínuo das inovações em inteligência artificial que Google tem promovido, reforçando o papel da DeepMind como uma peça-chave na sua estratégia tecnológica.
O funcionamento do Whisk é baseado na oferta central de IA da Google, chamada Gemini, que foi lançada em dezembro de 2023, e na combinação com o Imagen 3, o mais recente gerador de texto para imagem lançado pela DeepMind. Essa integração entre diferentes tecnologias de IA ressalta a posição de liderança que a Google busca manter no setor.
Quando os usuários carregam suas imagens, o Gemini gera uma legenda que é processada pelo Imagen 3, capturando a “essência” do assunto, em vez de replicá-lo exatamente. Essa abordagem permite que o produto final possa diferir da imagem de entrada, mas, por outro lado, oferece uma liberdade criativa para remixar a imagem final.
Por exemplo, a imagem gerada pode apresentar uma altura, estilo de cabelo ou tom de pele que difere dos objetos originais fornecidos, como informado pela Google. Essa variação não é um erro, mas sim uma característica do processo que permite que a criatividade do usuário se manifeste de novas formas.
Quando a Google lançou pela primeira vez o criador de texto para imagem do Gemini em fevereiro, a empresa enfrentou uma reação negativa inicial devido à produção de imagens historicamente imprecisas, destacando a importância da precisão e da responsabilidade na criação de ferramentas desse tipo.
O Whisk está inicialmente disponível como um website no Google Labs para usuários nos Estados Unidos e ainda se encontra em suas fases iniciais de desenvolvimento, com perspectivas de aprimoramento contínuo à medida que mais feedback for coletado.
Além disso, a OpenAI recentemente lançou um gerador de texto para vídeo chamado Sora, destacando ainda mais a concorrência por produtos voltados ao consumidor na área de inteligência artificial. O ritmo de inovações nesta área pode fazer com que o público fique maravilhado e, ao mesmo tempo, receioso com o impacto que essas ferramentas podem ter no cotidiano e na sociedade como um todo.
Dan Ives, diretor administrativo e analista sênior de ações da Wedbush Securities, afirmou à CNN que o Whisk é mais uma demonstração dos “músculos” que a Google está se esforçando para mostrar na corrida tecnológica e de inteligência artificial. A empresa continua investindo em novas soluções que prometem não apenas capturar a atenção dos consumidores, mas também estabelecer novos padrões no que diz respeito à inovação no setor tecnológico.
“A DeepMind é um ativo fundamental para a Google”, destacou Ives, observando que os produtos de inteligência artificial fazem parte do “cofre do tesouro” de novas ferramentas que a empresa planeja lançar em 2025. Isso inclui um novo sistema operacional Android, desenvolvido em colaboração com a Samsung e a Qualcomm, mostrando que a Google está de olho em cada aspecto da tecnologia para prosseguir com seu crescimento e inovação contínuos.