Um dos momentos mais esperados no mundo da tecnologia finalmente chegou. Após quase sete meses de expectativa, a OpenAI anunciou a disponibilidade das capacidades de vídeo em tempo real para o ChatGPT, uma inovação que promete transformar a forma como interagimos com assistentes virtuais. Durante uma transmissão ao vivo realizada na última quinta-feira, a empresa revelou que seu recurso chamado Advanced Voice Mode, que proporciona uma experiência de conversa mais humanizada, agora também inclui a funcionalidade de visão. Essa atualização significa que, a partir de agora, usuários assinantes do ChatGPT Plus, Team ou Pro poderão utilizar seus smartphones para apontar para objetos e receber respostas imediatas do ChatGPT, criando uma interação mais rica e envolvente.
Funcionalidades Avançadas e Acesso Controlado
Com a nova funcionalidade de visão integrada no Advanced Voice Mode, o ChatGPT não apenas consegue analisar o que está em frente à câmera do dispositivo, mas também é capaz de explorar o conteúdo da tela por meio do compartilhamento de tela. Isso abre uma gama de possibilidades, permitindo que o assistente explique menus de configurações ou ofereça sugestões práticas em tarefas como resolução de problemas matemáticos, tudo em tempo real. Para começar a usar essa nova funcionalidade, os usuários simplesmente precisam tocar no ícone de voz ao lado da barra de chat e em seguida no ícone de vídeo localizado na parte inferior esquerda para ativar a câmera. Para compartilhar a tela, é necessário acessar o menu de três pontos e selecionar “Compartilhar Tela”.
O lançamento do Advanced Voice Mode com visão se iniciará na quinta-feira e deverá ser concluído dentro de uma semana. No entanto, nem todos os usuários terão acesso a esta nova funcionalidade imediatamente. A OpenAI informa que os assinantes do ChatGPT Enterprise e Edu não terão a possibilidade de usá-la até janeiro e que não há previsão para usuários do ChatGPT nos países da União Europeia, Suíça, Islândia, Noruega ou Liechtenstein.
A Experiência de Demonstração e as Limitações
Em uma recente demonstração no programa “60 Minutes” da CNN, o presidente da OpenAI, Greg Brockman, colocou o Advanced Voice Mode com visão à prova, desafiando o apresentador Anderson Cooper em uma atividade de reconhecimento anatômico. Enquanto Cooper desenhava partes do corpo em um quadro negro, o ChatGPT conseguiu “entender” o que estava sendo representado, fazendo comentários como “A localização está precisa. O cérebro está ali na cabeça. Quanto à forma, é um bom começo. O cérebro é mais oval.”
No entanto, essa demonstração também serviu para destacar as limitações da tecnologia atual. Durante o mesmo evento, o ChatGPT cometeu um erro ao resolver um problema de geometria, o que evidencia que a IA ainda pode apresentar lapsos de lógica, ou o que é conhecido como “alucinações”. Essa realidade levanta preocupações sobre a confiabilidade da IA em contextos críticos, uma vez que o potencial de erro pode causar confusão ou desinformação, especialmente se um usuário confiar completamente nas respostas fornecidas pela tecnologia.
Desafios e Concorrência no Setor de IA
O desenvolvimento do Advanced Voice Mode com visão enfrentou várias interrupções. De acordo com informações divulgadas, a OpenAI anunciou o recurso com antecedência, antes de estar totalmente pronto para produção. Em abril, a empresa prometeu uma liberação em “poucas semanas”, mas meses depois confirmou que ainda precisava de mais tempo para melhorias. Enquanto isso, os usuários que receberam uma versão preliminar do modo de voz em texto viram que faltava a análise visual, o que gerou frustração entre os primeiros adotantes. A OpenAI, no entanto, tem estado atenta a essa evolução, concentrando esforços na expansão do acesso à experiência de modo de voz através de diversas plataformas e usuários na União Europeia.
A concorrência também está se intensificando, com empresas como Google e Meta investindo em capacidades semelhantes para seus produtos de chatbot. Esta semana, o Google disponibilizou uma funcionalidade de IA conversacional chamada Project Astra, capaz de analisar vídeos em tempo real, à um grupo de “testadores confiáveis” no Android. Essas inovações no setor revelam a crescente demanda por assistentes virtuais cada vez mais inteligentes e responsivos, assim como o potencial disruptivo que essa tecnologia traz para diversas indústrias.
Funções Festivas e Conclusão
Além do novo Advanced Voice Mode com visão, a OpenAI também apresentou na quinta-feira um recurso festivo chamado Santa Mode, que adiciona a voz do Papai Noel como uma opção de preset no ChatGPT. Esta novidade, encontrada ao tocar ou clicar no ícone de floco de neve na aplicação, demonstra o suporte da OpenAI em criar experiências divertidas e envolventes para os usuários. A combinação de tecnologia avançada com um toque lúdico reafirma o compromisso da OpenAI em desenvolver uma inteligência artificial que seja não apenas útil, mas também agradável. Portanto, com essas inovações, as interações com a IA nunca foram tão promissoras. Este é, sem dúvida, um passo significativo rumo a um futuro onde a tecnologia e a interação humana se entrelaçam de maneira cada vez mais natural e efetiva.