ÁudioLM, o sistema desenvolvido pelos pesquisadores do Google, gera todos os tipos de sons, incluindo sons complexos como música de piano em uma música ou pessoas falando, quase indistinguíveis do fragmento inicial que é submetido a ele.
A técnica é muito promissora e pode ser útil de várias maneiras. Por exemplo, ele pode acelerar o processo de treinamento da inteligência artificial ou gerar automaticamente músicas para acompanhar os vídeos. Mas é muito mais do que isso.
Jogue de novo, Sam
Já estamos acostumados a ouvir áudio gerado por inteligência artificial. Quem luta todos os dias com Alexa ou Google Nest sabe bem: nossos assistentes de voz processam linguagem natural.
Existem, com certeza, também sistemas treinados em música: lembre-se juke-box por OpenAI? Eu falei sobre isso aqui. Todos esses sistemas, no entanto, são baseados em um longo e complexo "treinamento", que passa pela catalogação e administração de muitas "idéias". Nossas inteligências artificiais estão famintas por dados e querem cada vez mais.
O próximo passo é fazer a IA “pensar” permitindo que ela processe as informações que ouve com mais rapidez, sem a necessidade de longos treinamentos. Algo semelhante ao que você tenta fazer com sistemas autônomos.
Como o AudioLM funciona
Para gerar o áudio, alguns segundos de música ou som são inseridos no AudioLM, que literalmente prevê o que vem a seguir. Não é Shazam, não procura a peça inteira e a repropõe. Ele não faz uma colagem de sons que tem na memória. Ele os constrói. O processo é semelhante ao modo como eu modelos linguísticos como o GPT-3, eles preveem frases e palavras.
Os clipes de áudio lançados pela equipe do Google soam muito naturais. Em particular, a música de piano gerada pelo AudioLM parece mais fluida do que aquela gerada com as atuais inteligências artificiais. Em outras palavras, ele é melhor em capturar a forma como produzimos uma música ou um som.
"É realmente impressionante, até porque indica que esses sistemas estão aprendendo algum tipo de estrutura em camadas", diz ele Roger Danenberg, pesquisador em música gerada por computador na Carnegie Mellon University.

Não apenas uma canção
Imagine falar com AudioLM, duas palavras e parar. O sistema continuará o discurso aprendendo sua cadência, seu sotaque, suas pausas e até mesmo sua respiração. Em resumo, exatamente do jeito que você fala. Não há necessidade de fazer treinamento específico: ele pode fazer quase sozinho.
Como um papagaio repetindo as coisas que você ouve. Só este é um papagaio capaz de receber e produzir qualquer som, e completar autonomamente os que ficaram no meio.
Em suma? Teremos muito em breve (e nestes casos significa muito em breve) sistemas capazes de falar com muito mais naturalidade e de compor uma música ou soar exatamente como De E 2, MidjourneyAI e outros criam imagens, ou Faz um video cria clipes com base em nossa entrada.
Quem detém os direitos de uma música?
Embora esses sistemas possam criar conteúdo quase por si mesmos, isso "quase" ainda faz toda a diferença no mundo e torna necessário considerar as implicações éticas dessa tecnologia.
Se eu disser "Então, faça-me um final diferente para Bohemian Rapsody" e essa coisa vai fazer uma música nesse sentido, quem pode reivindicar os direitos e cobrar os royalties da música? Sem mencionar o fato de que sons e falas agora indistinguíveis dos humanos são muito mais convincentes e abertos a uma disseminação sem precedentes de desinformação.
No documento publicado para apresentar esta IA (eu linko aqui), os pesquisadores escrevem que já estão considerando como mitigar esses problemas inserindo maneiras de distinguir sons naturais daqueles produzidos com AudioLM. acredito pouco. Muitos dos propósitos para os quais essa IA foi criada seriam perdidos.
De maneira mais geral, o risco é produzir um fenômeno que eu chamaria de "desconfiança da realidade". Se tudo pode ser verdade, nada pode ser. Nada tem valor.