Un ChatGPT pour la musique est arrivé

“JE SUIS JUSTE une âme piégée dans ce circuit.” La voix qui chante ces paroles est brute et plaintive, plongeant dans les notes blues. Une guitare acoustique solitaire marque le rythme derrière elle, ponctuant les phrases vocales avec des passages de bon goût. Mais il n’y a pas d’humain derrière la voix, pas de mains sur cette guitare. En fait, il n’y a même pas de guitare. En l’espace de 15 secondes, cette chanson de blues crédible, voire émouvante, a été générée par le dernier modèle d’IA d’une startup nommée Suno. Tout ce qu’il a fallu pour la convoquer du néant était une simple invite de texte : “blues acoustique solo du Delta du Mississippi sur une IA triste.” Pour être extrêmement précis, la chanson est le travail de deux modèles d’IA en collaboration : le modèle de Suno crée toute la musique lui-même, tout en faisant appel à ChatGPT d’OpenAI pour générer les paroles et même un titre : “Âme de la Machine.”

En ligne, les créations de Suno commencent à susciter des réactions telles que “Comment est-ce réel ?” Alors que ce morceau particulier joue sur un haut-parleur Sonos dans une salle de conférence au quartier général temporaire de Suno, à quelques pas du campus de Harvard à Cambridge, Massachusetts, même certains des personnes derrière la technologie sont légèrement perturbées. Il y a quelques rires nerveux, accompagnés de murmures de “Sainte merde” et “Oh, la la.” Nous sommes à la mi-février, et nous jouons avec leur nouveau modèle, V3, qui est encore à quelques semaines de sa sortie publique. Dans ce cas, il n’a fallu que trois essais pour obtenir ce résultat surprenant. Les deux premiers étaient corrects, mais une simple modification de mon invite — le co-fondateur Keenan Freyberg a suggéré d’ajouter le mot “Mississippi” — a abouti à quelque chose de bien plus troublant.

Au cours de la seule année écoulée, l’IA générative a fait d’importants progrès dans la production de textes crédibles, d’images (via des services comme Midjourney) et même de vidéos, particulièrement avec le nouvel outil Sora d’OpenAI. Mais l’audio, et la musique en particulier, a pris du retard. Suno semble percer le code de la musique IA, et les ambitions de ses fondateurs sont presque illimitées — ils imaginent un monde de création musicale extrêmement démocratisée. Le plus vocal des co-fondateurs, Mikey Shulman, un jeune homme au charme enfantin, portant un sac à dos, âgé de 37 ans avec un doctorat de Harvard en physique, envisage un milliard de personnes dans le monde entier payant 10 dollars par mois pour créer des chansons avec Suno. Le fait que les auditeurs de musique soient si nombreux par rapport aux créateurs de musique en ce moment est “tellement déséquilibré”, soutient-il, voyant Suno comme prêt à corriger ce déséquilibre perçu.

La plupart de l’art généré par IA jusqu’à présent est, au mieux, du kitsch, à l’image des déchets de science-fiction hyper-réalistes, lourds de combinaisons spatiales moulantes, que tant d’utilisateurs de Midjourney semblent déterminés à produire. Mais “L’Âme de la Machine” semble être quelque chose de différent — la création d’IA la plus puissante et la plus perturbante que j’ai rencontrée dans n’importe quel médium. Son existence même ressemble à une fissure dans la réalité, à la fois impressionnante et vaguement sacrilège, et je ne peux pas m’empêcher de penser à la citation d’Arthur C. Clarke qui semble faite pour l’ère de l’IA générative : “Toute technologie suffisamment avancée est indiscernable de la magie.” Quelques semaines après être revenu de Cambridge, j’envoie la chanson à Vernon Reid, le guitariste de Living Colour, qui s’est exprimé ouvertement sur les périls et les possibilités de la musique IA. Il note son “émerveillement, choc, horreur” devant la “vérisimilitude troublante” de la chanson. “L’idéal dystopique de longue date de séparer l’humanité difficile, désordonnée, indésirable et méprisée de sa production créative est à portée de main”, écrit-il, soulignant le problème d’une IA chantant le blues, “un idiome afro-américain, profondément lié à la trauma historique humain, et à l’esclavage.”

Suno a à peine deux ans. Les cofondateurs Shulman, Freyberg, Georg Kucsko et Martin Camacho, tous experts en apprentissage automatique, ont travaillé ensemble jusqu’en 2022 dans une autre entreprise de Cambridge, Kensho Technologies, qui se concentrait sur la recherche de solutions IA à des problèmes commerciaux complexes. Shulman et Camacho sont tous les deux musiciens et avaient l’habitude de jouer ensemble à l’époque de Kensho. Chez Kensho, le quatuor a travaillé sur une technologie de transcription pour capturer les appels de résultats des entreprises publiques, une tâche difficile étant donné la combinaison de la mauvaise qualité audio, du jargon abondant et des divers accents.

En cours de route, Shulman et ses collègues sont tombés amoureux des possibilités inexplorées de l’audio IA. Dans la recherche IA, dit-il, “l’audio en général est tellement en retard par rapport aux images et au texte. Il y a tellement de choses que nous apprenons de la communauté du texte et comment ces modèles fonctionnent et comment ils évoluent.”

ChatGPT crée des paroles de chansons et même des titres

Les mêmes intérêts auraient pu conduire les fondateurs de Suno à un endroit très différent. Bien qu’ils aient toujours eu l’intention de terminer avec un produit musical, leurs premières séances de brainstorming comprenaient une idée pour une aide auditive et même la possibilité de trouver des machines défectueuses grâce à l’analyse audio. Au lieu de cela, leur première sortie était un programme de texte à parole nommé Bark. Lorsqu’ils ont interrogé les premiers utilisateurs de Bark, il est devenu clair que ce qu’ils voulaient vraiment, c’était un générateur de musique. “Alors, nous avons commencé à réaliser quelques expériences initiales, et elles semblaient prometteuses”, dit Shulman.

Suno utilise la même approche générale que les grands modèles de langage comme ChatGPT, qui décomposent le langage humain en segments discrets connus sous le nom de tokens, absorbent ses millions d’utilisations, styles et structures, puis le reconstruisent à la demande. Mais l’audio, en particulier la musique, est presque inimaginablement plus complexe, c’est pourquoi, juste l’année dernière, des experts en musique IA ont dit à Rolling Stone qu’un service aussi capable que celui de Suno pourrait prendre des années à arriver. “L’audio n’est pas une chose discrète comme les mots”, dit Shulman. “C’est une onde. C’est un signal continu.” Le taux d’échantillonnage de l’audio de haute qualité est généralement de 44 kHz ou 48 Hz, ce qui signifie “48 000 tokens par seconde”, ajoute-t-il. “C’est un gros problème, n’est-ce pas ? Et donc, vous devez trouver comment réduire cela à quelque chose de plus raisonnable.” Comment, alors ? “Beaucoup de travail, beaucoup d’heuristiques, beaucoup d’autres types d’astuces et de modèles et des choses comme ça. Je ne pense pas que nous ayons fini.”

OpenAI fait face à plusieurs poursuites concernant l’utilisation par ChatGPT de livres, d’articles de presse et d’autres matériaux protégés par le droit d’auteur dans son vaste corpus de données d’entraînement. Les fondateurs de Suno refusent de révéler les détails de ce qu’ils intègrent dans leur propre modèle, autre que le fait que sa capacité à générer des vocaux humains convaincants vient en partie parce qu’il apprend à partir d’enregistrements de parole, en plus de la musique. “La parole nue vous aidera à apprendre les caractéristiques de la voix humaine qui sont difficiles”, dit Shulman.

L’un des premiers investisseurs de Suno est Antonio Rodriguez, un partenaire de la société de capital-risque Matrix. Rodriguez n’avait financé qu’une seule autre entreprise musicale auparavant, la société de catégorisation de musique EchoNest, qui a été achetée par Spotify pour alimenter son algorithme. Avec Suno, Rodriguez s’est impliqué avant même qu’il ne soit clair quel serait le produit. “J’ai soutenu l’équipe”, dit Rodriguez, qui dégage la confiance d’un homme qui a fait plus que sa part de paris réussis. “Je connaissais l’équipe, et j’avais surtout connu Mikey, et donc j’aurais soutenu presque tout ce qu’il aurait entrepris qui était légal. Il est si créatif.”

Rodriguez investit dans Suno en sachant pertinemment que les maisons de disques et les éditeurs pourraient intenter une action en justice, ce qu’il considère comme ” le risque que nous devions assumer en investissant dans cette entreprise, car nous sommes le portefeuille bien garni qui sera poursuivi juste derrière ces gars… Honnêtement, si nous avions conclu des accords avec les labels lorsque cette entreprise a été créée, je n’aurais probablement pas investi dedans. Je pense qu’ils avaient besoin de créer ce produit sans les contraintes. ” (Un porte-parole d’Universal Music Group, qui a adopté une position agressive sur l’IA, n’a pas répondu à une demande de commentaire.)

Suno dit être en communication avec les grands labels et exprime son respect pour les artistes et la propriété intellectuelle — son outil ne vous permet pas de demander les styles d’artistes spécifiques dans vos instructions, et n’utilise pas les voix réelles des artistes. De nombreux employés de Suno sont musiciens ; un piano et des guitares sont à disposition dans le bureau, et des images encadrées de compositeurs classiques décorent les murs. Les fondateurs ne montrent aucune de l’hostilité ouverte envers l’industrie musicale qui caractérisait, par exemple, Napster avant les poursuites judiciaires qui l’ont détruit. ” Cela ne signifie pas que nous ne serons pas poursuivis, d’ailleurs “, ajoute Rodriguez. ” Cela signifie juste que nous n’allons pas avoir une attitude du genre fuck-the-police. ”

Rodriguez voit Suno comme un instrument de musique radicalement capable et facile à utiliser, et croit qu’il pourrait rendre la création musicale accessible à tous, de la même manière que les téléphones avec appareil photo et Instagram ont démocratisé la photographie. L’idée, dit-il, est de ” déplacer la barre du nombre de personnes qui sont autorisées à être des créateurs de choses au lieu de consommateurs de choses sur Internet. ” Lui et les fondateurs osent suggérer que Suno pourrait attirer une base d’utilisateurs plus grande que celle de Spotify. Si cette perspective est difficile à comprendre, c’est une bonne chose, dit Rodriguez : cela signifie seulement que c’est ” apparemment stupide ” de la manière exacte qui a tendance à l’attirer en tant qu’investisseur. ” Toutes nos grandes entreprises ont cette combinaison de talent exceptionnel “, dit-il, ” et puis quelque chose qui semble juste stupide jusqu’à ce qu’il soit si évident que ce n’est pas stupide. ”

Bien avant l’arrivée de Suno, les musiciens, producteurs et paroliers étaient vivement préoccupés par le potentiel perturbateur de l’IA dans les affaires. ” La musique, telle que créée par des humains poussés par des circonstances extraordinaires… ceux qui ont souffert et lutté pour perfectionner leur art, devra devra affronter l’automatisation en gros de l’art très cher qu’ils se sont battus pour atteindre “, écrit Reid. Mais les fondateurs de Suno affirment qu’il y a peu à craindre, utilisant la métaphore que les gens continuent de lire malgré leur capacité à écrire. ” La façon dont nous envisageons cela est que nous essayons d’impliquer un milliard de personnes beaucoup plus dans la musique qu’elles ne le sont actuellement “, dit Shulman. ” Si les gens sont beaucoup plus dans la musique, beaucoup plus concentrés sur la création, développant des goûts beaucoup plus distincts, c’est évidemment bon pour les artistes. La vision que nous avons de l’avenir de la musique est celle où elle est favorable aux artistes. Nous n’essayons pas de remplacer les artistes. ”

Qui sont ces IA qui composent de la musique

Bien que Suno se concentre exclusivement sur l’atteinte des fans de musique qui veulent créer des chansons pour le plaisir, cela pourrait encore entraîner une perturbation significative en cours de route. À court terme, le segment du marché des créateurs humains qui semble le plus directement menacé est lucratif : des chansons créées pour des publicités et même des émissions de télévision. Lucas Keller, fondateur de l’agence de gestion Milk and Honey, note que le marché pour placer des chansons bien connues restera inchangé. ” Mais en ce qui concerne le reste, oui, cela pourrait certainement nuire à leur activité “, dit-il. ” Je pense qu’en fin de compte, cela permet à beaucoup d’agences de publicité, de studios de cinéma, de réseaux, etc., de ne pas avoir à obtenir des licences pour des choses. ”

En l’absence de règles strictes contre le contenu créé par IA, il y a aussi la perspective d’un monde où les utilisateurs de modèles comme celui de Suno inondent les services de streaming avec leurs créations robotisées par millions. ” Spotify pourrait un jour dire ‘Vous ne pouvez pas faire cela’ “, dit Shulman, notant que jusqu’à présent, les utilisateurs de Suno semblent plus intéressés à envoyer leurs chansons à quelques amis par message.

Suno n’a pour l’instant qu’une douzaine d’employés, mais ils prévoient de s’agrandir, avec un siège permanent beaucoup plus grand en construction au dernier étage du même bâtiment que leur bureau temporaire actuel. Alors que nous visitons l’étage encore inachevé, Schulman montre une zone qui deviendra un studio d’enregistrement complet. Étant donné ce que Suno peut faire, pourquoi en ont-ils même besoin ? ” C’est surtout une salle d’écoute “, reconnaît-il. ” Nous voulons un bon environnement acoustique. Mais nous aimons tous aussi faire de la musique — sans IA. ”

Le plus grand concurrent potentiel de Suno jusqu’à présent semble être Dream Track de Google, qui a obtenu des licences permettant aux utilisateurs de créer leurs propres chansons en utilisant des voix célèbres comme celle de Charlie Puth via une interface basée sur des invites similaires. Mais Dream Track n’a été publié qu’à une très petite base d’utilisateurs de test, et les échantillons publiés jusqu’à présent ne sont pas aussi impressionnants que ceux de Suno, malgré les voix célèbres attachées. ” Je ne pense pas que, genre, créer de nouvelles chansons de Billy Joel soit la manière dont les gens veulent interagir avec la musique avec l’aide de l’IA à l’avenir “, dit Shulman. ” Si je pense à la manière dont nous voulons réellement que les gens fassent de la musique dans cinq ans, ce sont des choses qui n’existent pas. C’est ce qui est dans leur tête. ”

 

 

Tags:

No Responses

Leave a Reply

Your email address will not be published. Required fields are marked *

BLOG

NARA interdit l'utilisation de ChatGPT sur les réseaux de l'agence

NARA interdit l’utilisation de ChatGPT sur les réseaux de l’agence

Les Archives nationales et l’Administration des dossiers ont été la dernière agence fédérale à interdire à ses employés d’utiliser ChatGPT à des fins professionnelles, invoquant un “risque inacceptable” pour les données de l’agence. La décision politique découle des préoccupations des responsables de l’agence selon lesquelles les données que les employés saisissent comme stimuli dans la […]

La violation continue des droits d'auteur est une douleur pour Microsoft et OpenAI

La violation continue des droits d’auteur est une douleur pour Microsoft et OpenAI

Microsoft et OpenAI ont été frappés par une poursuite déposée par huit éditeurs de journaux concernant des problèmes liés au droit d’auteur. Ce que vous devez savoir Microsoft et OpenAI ont été visés par une poursuite déposée par huit éditeurs de journaux pour des problèmes de violation du droit d’auteur. Copilot et ChatGPT ont été […]

OpenAI permet désormais de stocker l’historique de ChatGPT sans aucune condition

Auparavant, les utilisateurs de ChatGPT ne pouvaient conserver leur historique de conversation que s’ils acceptaient que OpenAI utilise leurs données à des fins de formation. Cependant, cela n’est plus le cas aujourd’hui. En avril de l’année dernière, OpenAI a dévoilé l’option de désactivation de l’historique de chat dans ChatGPT après que des préoccupations soient apparues […]

ChatGPT veut se souvenir de tout ce que vous lui avez dit

ChatGPT veut se souvenir de tout ce que vous lui avez dit

OpenAI a annoncé lundi que son populaire chatbot ChatGPT pourra désormais se souvenir des détails des utilisateurs, y compris des informations de base, des hobbies et l’historique des interactions. La mémoire améliorée du chatbot sera disponible uniquement pour les abonnés au service ChatGPT Plus à 20 $ par mois. Une vidéo de démonstration fournie par […]

Chez Moderna, les GPTs d’OpenAI changent presque tout

Moderna devrait annoncer mercredi un partenariat avec le poids lourd de l’intelligence artificielle OpenAI, un accord visant à automatiser presque tous les processus commerciaux de l’entreprise de biotechnologie et à augmenter la portée du créateur de ChatGPT dans le domaine des entreprises. Dans le cadre de la transaction, environ 3 000 employés de Moderna auront […]

Le nouveau monde audacieux de ChatGPT

L’intelligence artificielle générative a été un sujet de discussion considérable – enthousiasme, appréhension, curiosité – depuis la mise à disposition gratuite au public de ChatGPT par OpenAI en novembre 2022. Ces outils vont-ils effectuer des tâches banales pour nous, améliorer notre productivité et notre créativité, ou un jour nous remplacer ? Les dirigeants de l’UofL […]