arNuméral

OpenAI DevDay 2024

Lors du DevDay 2024, OpenAI a mis l'accent sur des innovations concrètes destinées à faciliter l'adoption de l’IA dans les applications. Parmi les annonces, la Realtime API se distingue par la possibilité pour les développeurs d’intégrer des fonctionnalités vocales en temps réel dans leurs applications, offrant une interaction plus naturelle avec les utilisateurs.

Des early adopters comme Healthify, une application de coaching en nutrition et fitness, et Speak, une plateforme d'apprentissage des langues, ont déjà intégré cette API, illustrant son potentiel dans divers secteurs.

L'écoute et la parole, un pas en avant majeur pour l'IA

Lors du DevDay 2024, OpenAI a dévoilé de nouvelles fonctionnalités passionnantes, notamment l'intégration de la voix et de l'écoute en temps réel pour les applications. Grâce à la Realtime API, les applications peuvent désormais capter les requêtes vocales des utilisateurs en temps réel et répondre avec une voix expressive.

Cette avancée révolutionne les interactions en permettant des échanges plus naturels et immersifs. D'un point de vue technique, les développeurs auront accès à cette API pour seulement 0,06 $ par minute d'écoute et 0,24 $ par minute de parole, rendant cette technologie plus accessible à tous.

Des early adopters comme Healthify, une application de coaching en nutrition et fitness, et Speak, une plateforme d'apprentissage des langues, ont déjà intégré l'API Realtime dans leurs produits.

En complément, OpenAI a également annoncé l'extension de ChatGPT Advanced Voice Mode à tous les abonnés payants. Cette fonctionnalité offre cinq nouvelles voix, apportant une meilleure fluidité de conversation et une capacité à gérer des interactions plus complexes, une amélioration directe de l’expérience utilisateur​. 

Mais comme ce fameux mode avancé n'est pas autorisé en Europe pour cause d'AI Act, il reste à savoir si l'API, elle, sera utilisable. 

Fine-tuning de la modalité images de GPT 4o

OpenAI a par ailleurs dévoilé le Vision Fine-Tuning, permettant aux développeurs de former des modèles à partir d'images, un saut majeur par rapport aux modèles basés uniquement sur le texte. Cette innovation ouvre la voie à de nombreuses applications, en particulier dans les domaines tels que l’analyse d’images médicales, mais aussi dans l’industrie pour des tâches comme l’inspection visuelle automatisée.

Grab, l'une des principales entreprises de livraison de nourriture et de services de transport en Asie du Sud-Est, a déjà utilisé cette technologie pour améliorer ses services de cartographie, selon OpenAI. En se basant sur seulement 100 exemples, la société a réussi à augmenter la précision du comptage des voies de 20 % et à améliorer la localisation des panneaux de limitation de vitesse de 13 %

Prompt Caching : Vers une IA plus efficace et durable

Les requêtes envoyées à un modèle contiennent souvent du contenu répétitif, notamment les prompts système, systématiquement inclus à chaque demande. Ces éléments, exprimés en tokens, doivent être recalculés à chaque fois par le modèle, ce qui rend le processus lent et coûteux. Étant donné que l'essentiel du coût d'une inférence provient de la consommation d'électricité, cela se traduit également par une forte empreinte énergétique.

Le principe du Prompt Caching repose sur le fait que les serveurs, après avoir calculé une première requête, conservent temporairement ces calculs. Ainsi, lors d'une seconde requête similaire, OpenAI redirige automatiquement la demande vers le même serveur, qui n'aura plus besoin de recalculer les parties communes entre les deux requêtes.

Cela permet de réduire les coûts des requêtes et leur empreinte énergétique jusqu'à 50 %, tout en accélérant leur traitement jusqu'à 80 %. Une idée ingénieuse pour rendre les modèles d'IA plus économes en énergie, moins coûteux et plus rapides. À noter que ce concept existe déjà depuis quelque temps chez Anthropic.

Model Distillation : La fusion de la puissance et de l'efficacité

D'un côté, nous avons des modèles comme GPT-4o, qui sont très puissants, mais aussi lents, gourmands en énergie et donc coûteux à exploiter.

De l'autre, il existe des modèles comme GPT-4o-mini, beaucoup plus rapides, économes en énergie et bien plus abordables, mais qui sont nettement moins riches en connaissances que les modèles plus imposants.

La Model Distillation propose une solution hybride en utilisant les grands modèles pour générer des données d'entraînement spécifiques, qui permettent ensuite de former les petits modèles. Cela permet de rendre ces derniers aussi performants que les grands modèles sur des sujets précis, tout en conservant leurs avantages : une faible consommation d'énergie et un coût réduit.

OpenAI construit son écosystème durable

En conclusion, OpenAI a opté cette année pour une approche plus pragmatique, en se concentrant sur des outils et des fonctionnalités destinés à faciliter l’adoption massive de l’IA. Plutôt que de chercher à impressionner par des annonces spectaculaires, l'accent a été mis sur des solutions concrètes et accessibles.

Parmi ces innovations, on peut citer l'amélioration des interactions humaines grâce à l'intégration de l'audio, l'optimisation des performances via le Prompt Caching, ou encore le Fine-Tuning des modèles d’images. Chacune de ces avancées vise à rendre l’IA plus abordable et plus performante, s'adressant ainsi à un large éventail d'industries, qu'elles soient petites ou grandes.

Cette stratégie pragmatique permet à OpenAI de bâtir un écosystème solide et durable, tout en préparant le terrain pour une adoption plus large de l'IA dans de nouveaux secteurs. Certains pourraient toutefois avancer que ces améliorations, bien qu'utile à court terme, risquent de rendre les clients plus dépendants des services d’OpenAI, renforçant ainsi leur captivité à l'écosystème de la marque.

Newsletter

Une idée ? Un projet ? Contactez-nous !

form will be placed in here