Le PDG de l’entreprise, Sundar Pichai, a révélé l’existence de Gemini lors de la conférence Google I/O en mai de cette année, bien qu’il était encore en phase de formation à ce moment-là. Mais aujourd’hui, la société a annoncé qu’elle lancera ce modèle de pointe au public.
Trois versions de Gemini ont été créées pour différentes applications, nommées Nano, Pro et Ultra, qui augmentent en taille et en capacité. Google a refusé de répondre aux questions sur la taille des versions Pro et Ultra, le nombre de paramètres qu’elles incluent ou l’échelle ou la source de leurs données d’entraînement. Mais sa version la plus petite, Nano, qui est conçue pour fonctionner localement sur les smartphones, est en réalité composée de deux modèles : un pour les téléphones plus lents qui a 1,8 milliard de paramètres et un pour les appareils plus puissants qui en a 3,25 milliards. Comparer les capacités des modèles d’IA est une science inexacte, mais il est supposé que GPT-4 inclut jusqu’à 1,7 trillion de paramètres et LLAMA-2 de Meta en a 70 milliards.
La version intermédiaire Pro de Gemini surpasse certains autres modèles, tels que GPT3.5 d’OpenAI, mais la version Ultra plus puissante dépasse la capacité de tous les modèles d’IA existants, affirme Google. Elle a obtenu 90 pour cent au benchmark MMLU standard de l’industrie, où un humain au niveau “expert” est censé atteindre 89,8 pour cent.
C’est la première fois qu’une IA bat les humains à ce test, et c’est le score le plus élevé pour n’importe quel modèle existant. Le test implique une large gamme de questions délicates sur des sujets incluant les sophismes logiques, les problèmes moraux dans des scénarios quotidiens, les questions médicales, l’économie et la géographie.
Dans le même test, GPT-4 a obtenu 87 pour cent, LLAMA-2 a obtenu 68 pour cent et Claude 2 d’Anthropic a obtenu 78,5 pour cent. Gemini a battu tous ces modèles dans huit des neuf autres tests de benchmark courants.
Le modèle Pro sera intégré dans Bard de Google, un chatbot en ligne qui a été lancé en mars de cette année. La société indique qu’une autre version de Bard appelée Bard Avancé sera lancée au début de l’année prochaine et inclura le modèle Gemini Ultra plus grand.
La nouvelle version de Bard sera disponible en anglais dans plus de 170 pays dès aujourd’hui, mais elle ne sera pas disponible dans d’autres langues ni même en anglais à travers le Royaume-Uni et l’Europe. Sissie Hsiao chez Google indique que le retard est dû à la réglementation plutôt qu’à l’ingénierie : « Nous travaillons avec les politiques locales et les régulateurs pour nous assurer que nous respectons les lois locales et autres choses du même ordre avant de lancer dans d’autres régions. »
Eli Collins chez Google DeepMind déclare que Gemini est le modèle le plus large et le plus capable de l’entreprise, mais également le plus général, ce qui signifie qu’il est adaptable à une variété de tâches. Contrairement à de nombreux modèles actuels qui se concentrent sur le texte, Gemini a été formé sur le texte, les images et le son et est censé être capable d’accepter des entrées et de fournir des sorties dans tous ces formats. Cependant, le lancement de Bard ne permettra aux gens d’utiliser que des invites textuelles dès aujourd’hui, l’entreprise promettant de permettre l’interaction audio et image « dans les mois à venir ».
Collins dit que Gemini est « à la pointe dans presque tous les domaines » et qu’il est encore en phase de test pour déterminer exactement sa capacité à travailler dans différents médias, langues et applications. « Nous travaillons encore à comprendre toutes les capacités novatrices d’Ultra », dit-il.
Aucune version de Gemini n’était disponible pour des tests lors de l’événement de lancement, mais Google a montré des démonstrations de l’IA résolvant des problèmes de devoirs et travaillant avec une entrée vidéo en direct. On prétend également qu’il est meilleur pour développer des logiciels que les modèles précédents : l’année dernière, DeepMind a lancé un générateur de code alimenté par l’IA appelé AlphaCode que la firme affirmait pouvoir battre 50 pour cent des développeurs humains, et elle lance maintenant une version mise à jour alimentée par Gemini qu’elle prétend capable de battre 85 pour cent des codeurs humains.
No Responses