arNuméral

Faut-il Intégrer o1 dans Vos Applications ? Analyse des Coûts, de la Vitesse et de la Pertinence

Depuis la sortie de o1, beaucoup se demandent s'il est pertinent d'intégrer o1 dans leurs applications. OpenAI va bien évidemment répondre oui et les API viennent d’ailleurs d’être ouvertes. Mais au-delà du marketing, sur un plan juste technique, est-ce vraiment une si bonne idée ?

Pour répondre à cette question moins simple qu’il n’y paraît, nous allons l’analyser sous trois angles pragmatiques : son prix, sa vitesse et sa capacité de réflexion.

Sous l’angle du prix

La première considération naturelle à prendre en compte est le coût d'utilisation de ce nouveau modèle. Ce coût va sans doute diminuer avec le temps, mais actuellement, il est très élevé.

Comme vous le savez sûrement déjà, le coût total d'un modèle se calcule en fonction du coût million de tokens envoyés au modèle via le prompt et le coût d’un million de tokens renvoyés par celui-ci.

Les modèles tels que Claude Sonnet 3.5 ou de GPT 4o coûte respectivement $3 et $5 pour un million de token de prompt, et $15 pour un million de tokens de réponse. Et pour les modèles plus petits comme GPT 4.0-mini, on tombe à $0,15 en entrée et $0,60 en sortie. Ce qui en fait le modèle idéal à intégrer pour des besoins simples. C'est d’ailleurs le choix que nous avons fait pour l’intégration IA dans TipStuff.

En comparaison, o1 coûte $15 par million de tokens en entrée et $60 par million de tokens en sortie !!! En soi, ce n'est pas vraiment surprenant, car même si les tokens utilisés pour la réflexion du modèle ne vous sont pas renvoyés, ils sont bien produits, et OpenAI doit vous les facturer. Mais cela revient à un modèle 4 fois plus cher que GPT 4o ou Claude Sonnet 3.5, ce qui peut avoir un impact significatif sur la facture pour vos applications les plus gourmandes en tokens.

Mais admettons, vous avez réussi votre levée de fonds (bravo !) et vous avez les poches profondes.

Sous l’angle de la vitesse

Les modèles actuels sont déjà plutôt lents. Mais pire que la lenteur, c’est l'impossible de prédire à quel point ce sera lent. 

Et bien, dites-vous qu'o1 est 10 fois plus lent que GPT 4o ou Claude. Et là aussi, c'est très logique. 

Là où un GPT 4o ne faisait que répondre, o1 va :

  1. Réfléchir à une manière de répondre,
  2. Réfléchir à chaque étape qu'il a fixé pur vous répondre,
  3. Et enfin il va vous répondre.

Et pendant tout ce temps, qui peut prendre jusqu'à des minutes, vos utilisateurs doivent patienter.

Mais admettons, grâce à votre levée de fonds, vous avez embauché de super UX designers qui ont eu l’idée géniale d’afficher des épisodes de Breaking Bad pour faire patienter vos utilisateurs.

Sous l’angle de la réflexion

On a compris, o1 c’est lent et c’est cher, mais si ça réfléchit mieux, c'est pas mal ! non ?

Comme l'explique Mehdi Boudoukhane, si votre application n'est pas une « Bullshit AI » - et je présume que c’est le cas - elle apporte une réelle valeur ajoutée sur un sujet et l'IA est avant tout là pour là sublimer. Dans ce cas, il semble évident que vos prompts intègrent déjà une chaîne de pensée qui reflète votre approche innovante pour résoudre le problème auquel vous vous attaquez.

Le problème est qu'O1 est conçu pour réfléchir de manière autonome. Si vous lui imposez une autre méthode de réflexion, vous risquez, au mieux, de payer plus cher et d'attendre plus longtemps pour obtenir le même résultat qu'avec GPT-4 ou Claude. Au pire, vous entrerez en conflit avec son processus de pensée, produisant ainsi des résultats de moindre qualité.

En conclusion

Il faut presque voir le « raisonnement » d'o1 comme une couche applicative fonctionnant au-dessus du “processeur LLM” qu’est un GPT 4o. Dans la grande majorité des cas, ce logiciel sera au mieux inutile, au pire contre-productif.

En revanche, si OpenAI nous autorise dans l’avenir à “finetuner” un modèle GPT 4o avec nos propres raisonnements, cela pourrait tout changer. Mais pas avant.

Newsletter

Une idée ? Un projet ? Contactez-nous !

form will be placed in here