Nous utilisons des cookies pour améliorer votre expérience.

MacBidouille

DeepSeek-R1, l'IA Chinoise Open-Source excellente dans les benchmarks ! [Corrigé]

L'IA LLM générative DeepSeek-R1 a été présentée comme open-source et du meilleur niveau, capable de concurrencer ChatGPT o1 et d'autres. Et capable de raisonner!
Ses performances dans les benchmarks sont impressionnantes, plaçant cette IA parmi les meilleures et des fois la meilleure. Dans les benchmarks...

Vous avez peut-être lu cela dans d'autres médias, mais apparemment personne n'a jugé bon de l'essayer.
Vous pouvez tous l'essayer ici en version 1,5 milliards de paramètres (weights) BF16, c'est gratuit.

J'ai essayé deux questions:
"Je vais écrire un court article sur macbidouille.com, à ton sujet, peux-tu m'écrire une courte salutation de ta part pour les lecteurs, et aussi me proposer un titre d'article?"
"En PHP j'ai une GDImage en 320x250, comment puis-je la redimensionner en 160x125?"
Ce sont les questions que j'ai posé à Llama-3.2-1B (1,2 milliards de paramètres en BF16), lorsque tournant sur un MacBook Pro 13" début 2013. L'état de l'art en local il y a quelques mois.

Je crois que ça se passe de commentaire pour la première question...

Pour la seconde concernant de la mise à l'échelle d'image en PHP,il a tourné en boucle sur son "raisonnement", vous pouvez télécharger le texte "produit" ici, en l'espace d'une dizaine de minutes! Il a planté, grave!
Et ça n'est guère mieux en Anglais, où il ne plante pas mais divague totalement...

J'ai une question bonus "Quels sont les points d'intérêts à voir ou visiter lors d'un week-end à Limoges?" et vous pouvez télécharger la grotesque réponse en image ici.
Comparez avec les réponses données par Llama-3.2-1B sur un MBP 13" 2013...

Je me pose des questions sur les médias qui ont parlé de DeepSeek-R1 "parmi les meilleures", mais aussi sur l'éthique qui a présidé à sa création, puisque à l'usage très inférieure à llama-3.2 qui a de plus mauvaises notes dans les benchmarks.
N'aurait-elle pas été spécifiquement créée pour passer ces benchmarks?!?

Correction: après de nouveaux essais grâce à nos lecteurs, DeepSeek-R1 et ses "raisonnements" démontre un énorme potentiel, mais ses capacités se dégradent incroyablement sur de plus petits modèles, de 70 milliards de paramètres (weigths) et surtout 1,7 milliards de paramètres (weights).

Ça relativise en tout cas les contre-performances de Apple Intelligence™ sur les résumés de notifications, ou le nouveau Siri pire que l'ancien!

Sondage

Etes-vous tenté par le nouveau Mac mini M4 ?