Recentemente, a Stability AI, uma startup de inteligência artificial conhecida por sua abordagem inovadora na geração de imagens, revelou sua mais nova série de modelos chamada Stable Diffusion 3.5. Esse lançamento surge em meio a uma onda de controvérsias que emanam de falhas técnicas e mudanças nas licenças da empresa. Os novos modelos prometem ser mais personalizáveis e versáteis em comparação com as tecnologias anteriores da empresa, e a Stability AI afirma que eles superam seus antecessores em desempenho. Dentro dessa nova série, há três modelos distintos que atendem a diferentes necessidades e capacidades, cada um trazendo inovações significativas que certamente despertarão o interesse de desenvolvedores, artistas e pesquisadores.
Modelos Diferenciados para Necessidades Variadas: Um Olhar Mais Aprofundado
A série Stable Diffusion 3.5 é composta por três modelos específicos. O primeiro é o Stable Diffusion 3.5 Large, que ostenta impressionantes 8 bilhões de parâmetros, tornando-se o modelo mais poderoso da série e capaz de gerar imagens com resoluções de até 1 megapixel. Esse número de parâmetros é uma medida direta das habilidades de resolução de problemas do modelo, onde um número maior indica uma melhor performance.
O segundo modelo, denominado Stable Diffusion 3.5 Large Turbo, é uma versão destilada do modelo Large. Este modelo é projetado para gerar imagens de maneira mais rápida, embora isso venha com uma leve diminuição na qualidade dos resultados. Por último, temos o Stable Diffusion 3.5 Medium, um modelo que foi otimizado para rodar em dispositivos de menor capacidade, como smartphones e laptops, oferecendo imagens em um intervalo de resolução que vai de 0,25 a 2 megapixels. Enquanto os modelos Large e Large Turbo já estão disponíveis, o modelo Medium só será lançado em 29 de outubro.
Compromisso com a Diversidade nas Outputs de Imagens
Uma das promessas mais notáveis da Stability AI com a versão 3.5 é a capacidade de gerar outputs mais diversos, o que se traduz em representações de pessoas com diferentes tons de pele e características físicas. Essa diversidade é uma resposta direta a críticas anteriores que a empresa enfrentou, particularmente em relação a como suas tecnologias representavam a pluralidade humana. Hanno Basse, o diretor de tecnologia da Stability, destacou em uma entrevista que, durante o treinamento dos modelos, cada imagem é acompanhada por múltiplas versões de prompts, onde versões mais curtas têm prioridade. Isso visa garantir uma distribuição mais ampla e diversificada de conceitos de imagem para qualquer descrição textual, um passo considerável em direção a uma representação mais inclusiva e realista.
A Stability AI é um dos muitos players na área de IA generativa, mas sua abordagem para a diversidade é esperada para estar mais fundamentada e cuidadosa em comparação com tentativas anteriores de outras empresas. Historicamente, tentativas de diversificação em geradores de imagem têm gerado controvérsias e críticas. Um exemplo disso foi o chatbot Gemini do Google, que por um período foi induzido a mostrar grupos anacrónicos em imagens históricas aos comandos de frases como “uma legião romana”. O Google foi forçado a interromper a geração de imagens de pessoas por quase seis meses para desenvolver uma correção.
Melhorias e Desafios na Qualidade das Imagens
Embora a Stability AI tenha feito grandes promessas com relação à nova série de modelos, a empresa também é franca sobre os desafios que eles enfrentam. Modelos anteriores, como o Stable Diffusion 3 Medium, foram criticados em relação a artefatos peculiares e à aderência aos prompts fornecidos. A empresa adverte que os novos modelos podem apresentar erros semelhantes devido a compromissos de engenharia e arquitetura. No entanto, é importante ressaltar que, segundo a Stability, os modelos 3.5 foram projetados para serem mais robustos que seus antecessores, gerando imagens com um espectro variado de estilos, incluindo arte em 3D.
Como mencionado, a maior variação nos resultados gerados a partir do mesmo prompt com diferentes “seeds” (sementes) é intencional. Essa técnica ajuda a preservar uma base de conhecimento mais ampla e estilos diversos nos modelos fundamentais. No entanto, a empresa também alerta que prompts que carecem de especificidade podem resultar em maior incerteza nas saídas e que o nível estético pode variar. Isso implica que, independentemente dos avanços, ainda haverá um grau de imprevisibilidade nas saídas geradas.
Licenciamento e Considerações Éticas no Uso das Novas Tecnologias
Um aspecto que permanece inalterado com a nova linha de modelos é a política de licenciamento da Stability. Assim como nas edições anteriores, os modelos da série Stable Diffusion 3.5 são gratuitos para uso em não-comercial, incluindo para fins de pesquisa. Para empresas com receitas anuais inferiores a 1 milhão de dólares, o uso comercial também está disponível sem custos adicionais. Contudo, empresas que ultrapassam esse faturamento são obrigadas a firmar um contrato com a Stability para obter uma licença de uso corporativo.
A empresa foi alvo de críticas durante o verão por causa de termos de ajuste fino restritivos, o que parecia, inicialmente, que beneficiava a empresa ao cobrar taxas sobre modelos treinados com imagens geradas. Em resposta ao clamor, a Stability alterou seus termos para permitir um uso comercial mais liberal. Em um comunicado, Ana Guillèn, VP de marketing e comunicações, afirmou que a empresa encoraja criadores a distribuir e monetizar seu trabalho em toda a linha de produção, desde que mencionem a licença comunitária e incluam a frase “Powered by Stability AI” em seus produtos e plataformas associadas.
Considerações Finais: Dilemas de Privacidade e Desafios Futuros
O lançamento da nova série de modelos Stable Diffusion 3.5 também traz à luz questões de privacidade e propriedade intelectual. A Stability AI, como muitas outras empresas no setor, treina seus modelos com dados da web pública, em algumas ocasiões sem assegurar a ausência de conteúdo protegido por direitos autorais. A empresa assinala que a doutrina de uso justo pode protegê-los de reivindicações de direitos autorais, mas ainda assim, donos de dados têm entrado com um número crescente de ações coletivas. Diferentemente de alguns concorrentes, a Stability deixa seus clientes responsáveis por se defenderem contra eventuais alegações de direitos autorais e, apesar de permitir que proprietários de dados solicitem a remoção de informações de seus conjuntos de dados de treinamento, esse processo não é simples.
Por último, em relação a questões de segurança em torno da desinformação, em especial com as eleições gerais nos EUA se aproximando, a Stability AI menciona que tomou e continua a tomar medidas razoáveis para evitar o uso indevido de suas tecnologias por agentes mal-intencionados. Contudo, a empresa não forneceu detalhes técnicos específicos sobre essas medidas. Até março de 2023, a empresa apenas proibia explicitamente o conteúdo “enganoso” gerado por suas ferramentas de IA, sem restrições para conteúdos que poderiam influenciar eleições ou afetar a integridade do pleito.