ÁudioLM, o sistema desenvolvido pelos pesquisadores do Google, gera todos os tipos de sons, incluindo sons complexos como música de piano em uma música ou pessoas falando, quase indistinguíveis do fragmento inicial que é submetido a ele.
A técnica é verdadeiramente promissora e pode ser útil de várias maneiras. Por exemplo, poderá agilizar o processo de treinamento da inteligência artificial, ou gerar automaticamente músicas para acompanhar vídeos. Mas é muito mais do que isso.
Jogue de novo, Sam
Já estamos acostumados a ouvir áudios gerados por inteligência artificial. Quem discute todos os dias com Alexa ou Google Nest sabe bem: nossos assistentes de voz processam a linguagem natural.
Existem, com certeza, também sistemas treinados em música: lembre-se juke-box por OpenAI? Eu falei sobre isso aqui. Todos estes sistemas, no entanto, baseiam-se em “treinamento” longo e complexo, que envolve a catalogação e administração de muitas “pistas”. Nossas inteligências artificiais são ávidas por dados e sempre querem mais.
O próximo passo é fazer com que a IA “pense”, permitindo-lhe processar as informações que ouve de forma mais rápida, sem a necessidade de longos treinamentos. Algo semelhante ao que tentamos fazer com sistemas autônomos.
Como o AudioLM funciona
Para gerar o áudio, alguns segundos de música ou som são inseridos no AudioLM, que literalmente prevê o que vem a seguir. Não é o Shazam, ele não procura a música inteira e a reproduz. Ele não faz colagens de sons que tem na memória. Ele os constrói. O processo é semelhante ao modo como eu modelos linguísticos como o GPT-3, eles preveem frases e palavras.
Os clipes de áudio lançados pela equipe do Google soam muito naturais. Em particular, a música de piano gerada pelo AudioLM parece mais fluida do que aquela gerada com as atuais inteligências artificiais. Em outras palavras, ele é melhor em capturar a forma como produzimos uma música ou um som.
“É realmente impressionante, também porque indica que esses sistemas estão aprendendo algum tipo de estrutura multicamadas”, diz ele. Roger Danenberg, pesquisador em música gerada por computador na Carnegie Mellon University.
Não apenas uma canção
Imagine falar com AudioLM, duas palavras e pronto. O sistema continuará a fala aprendendo sua cadência, seu sotaque, suas pausas e até mesmo sua respiração. Em resumo, exatamente o seu jeito de falar. Não há necessidade de treinamento específico: ele consegue fazer isso quase sozinho.
Como um papagaio repetindo as coisas que você ouve. Só este é um papagaio capaz de receber e produzir qualquer som, e completar autonomamente os que ficaram no meio.
Em suma? Teremos muito em breve (e nestes casos significa muito em breve) sistemas capazes de falar com muito mais naturalidade e de compor uma música ou soar exatamente como De E 2, MidjourneyAI e outros criam imagens, ou Faz um video cria clipes com base em nossa entrada.
Quem detém os direitos de uma música?
Mesmo que estes sistemas sejam capazes de criar conteúdos quase por si próprios, esse “quase” ainda faz toda a diferença no mundo e torna necessário considerar as implicações éticas desta tecnologia.
Se eu disser “Coisa, faça-me um final diferente para Bohemian Rhapsody” e essa coisa fizer uma música nesse sentido, quem ficará com os direitos e receberá os royalties da música? Sem falar no facto de que sons e discursos que agora são indistinguíveis dos humanos são muito mais convincentes e abrem uma propagação de desinformação sem precedentes.
No documento publicado para apresentar esta IA (eu linko aqui), os pesquisadores escrevem que já estão considerando como mitigar esses problemas inserindo maneiras de distinguir sons naturais daqueles produzidos com AudioLM. acredito pouco. Muitos dos propósitos para os quais essa IA foi criada seriam perdidos.
De um modo mais geral, o risco é produzir um fenómeno que eu chamaria de “desconfiança da realidade”. Se tudo pode ser verdade, nada pode ser. Nada tem valor.