OpenAI dá ao ChatGPT uma voz para responder a solicitações e comandos

Leitores como você ajudam a apoiar o MUO. Quando você faz uma compra usando links em nosso site, podemos ganhar uma comissão de afiliado. Consulte Mais informação.

ChatGPT está definido para se tornar uma experiência interativa de IA generativa. A OpenAI revelou que o chatbot de IA líder mundial será capaz de falar e responder às dúvidas dos usuários usando uma voz sintetizada, presumivelmente gerada por IA.

Junto com sua voz recém-descoberta, o ChatGPT também será capaz de responder e discutir imagens específicas enviadas para ele ou capturadas durante o uso do aplicativo ChatGPT para Android ou iOS. O recurso de reconhecimento de imagem é semelhante ao Google Lens e outros aplicativos que usam redes neurais para detectar dados e informações com precisão.

coisas para fazer na internet quando você está entediado

OpenAI dá voz ao ChatGPT

Em 25 de setembro de 2023, desenvolvedor ChatGPT OpenAI revelado daria voz ao seu chatbot de IA generativo líder mundial. Os usuários do ChatGPT podem falar diretamente com o chatbot e solicitar que ele responda, permitindo efetivamente que o ChatGPT converse diretamente por voz pela primeira vez.

O clipe de exemplo da OpenAI mostra uma mulher pedindo ao ChatGPT para criar uma história única para dormir, à qual o ChatGPT responde devidamente com uma voz feminina sintetizada.

De acordo com Com fio , o novo modelo de conversão de texto em fala foi desenvolvido internamente. Ele pode gerar áudio 'semelhante ao humano' a partir de texto e alguns segundos de amostra de fala ( usando o modelo OpenAI Whisper ) e falam em vários tons e estilos. Você pode encontrar uma variedade de amostras de voz em Blog da OpenAI .

Algumas empresas já estão colocando em uso o novo modelo de voz da OpenAI. Por exemplo, o Spotify está usando o modelo de conversão de texto em fala da OpenAI para traduzir podcasts para diferentes idiomas, combinando a capacidade de tradução de idiomas do ChatGPT com sua nova capacidade de fala.

O novo modelo de conversão de texto em fala do ChatGPT está disponível apenas para assinantes Plus e Enterprise que usam os aplicativos oficiais Android e iOS e deve ser lançado nas próximas duas semanas (a partir de 25 de setembro de 2023). Além disso, para começar, o novo recurso de voz está limitado ao inglês, embora esperemos que isso mude rapidamente.

ChatGPT pode reconhecer e fotografias

A segunda parte da atualização ChatGPT do OpenAI é a capacidade de analisar e falar imagens enviadas para a ferramenta. A opção de análise visual de imagem foi apresentada nos vídeos de atualização do GPT-4, mas não foi muito discutida desde então ( Intérprete de código ChatGPT à parte ).

Agora, o ChatGPT ganha funcionalidade semelhante ao Google Lens. Você pode fazer upload de uma imagem para o ChatGPT ou tirar uma fotografia usando a câmera do seu smartphone no aplicativo ChatGPT, e ele detalhará a imagem, adicionando mais contexto quando necessário.

dual boot windows 10 e linux

Chamá-lo de “semelhante ao Google Lens” é realmente uma injustiça. A capacidade de conversar sobre a imagem para obter mais informações e contexto a torna extremamente útil para uma ampla variedade de configurações. No entanto, é importante observar as letras miúdas, com a OpenAI deixando claro que limitou a “capacidade de analisar e fazer declarações diretas sobre as pessoas” do ChatGPT por razões de privacidade e precisão. Ainda assim, uma ferramenta “Quem é este” baseada em OpenAI poderia estar em desenvolvimento para o futuro? (Esperemos que não!)

Assim como o novo modelo de conversão de texto em fala, o OpenAI lançará o reconhecimento de imagem nas próximas duas semanas, embora esteja disponível em todas as plataformas, não apenas no aplicativo ChatGPT.

Privacidade, segurança e outros problemas

As implicações de um ChatGPT alimentado por voz são gritantes. Claro, é emocionante. No entanto, a capacidade de criar uma voz sintetizada exclusivamente usando apenas um pequeno trecho como exemplo apresenta problemas consideráveis de privacidade e segurança. O potencial para atores mal-intencionados explorarem essas ferramentas é enorme e, como acontece com qualquer ferramenta de IA generativa, uma vez que o gênio sair da garrafa, ele absolutamente não voltará. Nenhuma quantidade de regulamentação de IA por parte de governos ou líderes de pensamento pode voltar atrás. a maré.

para que posso usar crédito paypal

Até mesmo o aviso da OpenAI sobre o assunto parece contornar o óbvio, apesar de mencionar os problemas:

No entanto, estas capacidades também apresentam novos riscos, tais como a possibilidade de intervenientes mal-intencionados se passarem por figuras públicas ou cometerem fraudes. É por isso que estamos usando essa tecnologia para potencializar um caso de uso específico: bate-papo por voz.

Dado que esta é a ponta do iceberg, espere uma reação contra a voz recém-descoberta do ChatGPT, especialmente quando houver um aumento previsível em manchetes desagradáveis alegando que o ChatGPT está sendo usado para cometer fraudes e assim por diante.

OpenAI está tornando o ChatGPT o aplicativo de IA ideal

Quanto mais o OpenAI adiciona recursos fáceis de usar ao ChatGPT, mais ele se torna o aplicativo de IA generativo ideal. Como o primeiro a alcançar fama generalizada durante o boom inicial da IA generativa, o ChatGPT ainda lidera e é o único aplicativo usado, apesar da concorrência de empresas como Google Bard (e potencialmente Google Gemini) e Claude da Anthropic.

Contanto que o OpenAI possa continuar a adicionar recursos que tornem o ChatGPT mais fácil de usar, ele manterá as pessoas presas e chegará cada vez mais perto de seu objetivo de uma ferramenta de IA verdadeiramente multimodal.