Samedi sécurité : les IA LLM "open-source" n'ont rien à voir avec le logiciel Libre ou l'Open-Source
Manque d'imagination par moi, mauvaise exécution par ChatGPT 5
Vous avez du entendre parler des LLM (Grands Modèles de Langage) "open-source", le Français Mistral AI prétend proposer de tels modèles accessibles à tous.
J'utilise Mistral AI pour la petite version Minitel de MacBidouille, pour résumer les sujets, je les soutiens, c'est une entreprise prometteuse, surtout avec l'investissement du mastodonte ASML dans cette société, la valorisant au-dessus de 10 milliards d'Euros. Je suis patriote au sens que lui donne Orwell.
Un logiciel gratuit ou "freeware" est un logiciel d'accès libre, où beaucoup ont le droit de l'utiliser gratos. Mais le code-source est privé. Et il y a dans la licence d'utilisation des restrictions.
Il est quasi-impossible d'en auditer de manière externe la sécurité.
Un logiciel Open-Source est un logiciel d'accès libre, où beaucoup ont le droit de l'utiliser gratos. Le code-source est public ainsi que les moyens de le recompiler/regénérer depuis celui-ci. Mais il y a encore des restrictions d'usage, de modification ou d'intégration dans les licences, un forme de contrôle.
Il est possible d'en auditer la sécurité de manière externe.
Un logiciel Libre est un logiciel d'accès libre, où tous sans exceptions ont le droit de l'utiliser gratos. Le code-source est public ainsi que les moyens de le recompilr/regénérer depuis celui-ci. Il n'y a aucune restriction dans les licences.
Par abus ces licences sont appelées "permissives", elles sont simplement Libres.
La sécurité en est totalement auditable.
Je produis publiquement de tels logiciels, sans copyright en licence MIT modifiée (copyleft).
Les IA LLM "open-source" comme celles de Mistral ont des licences limitantes: ce ne sont donc pas des logiciels Libres d'aucune façon. Pas de modification (fine-tuning ou distillation) avec redistribution publique par exemple.
Ces mêmes IA "open-source" ne donnent pas accès à ce qui a permis de créer les paramètres/weights de leurs modèles, empêchant de les reconstruire: il faut les prendre comme elles sont sans savoir ce qu'il y a sous le capot, tant en terme de sécurité directe (génération de code, agents) qu'indirecte (biais, désinformation, abus possible des humains interagissants).
Les LLM IA "open-source" ne sont pas Open-Source, encore moins Libres, leurs biais et problèmes de sécurité (incluant la backdoor que j'avais trouvé dans Qwen 2.5) ne sont pas auditables, sauf indirectement au travers de leurs résultats. Des boîtes noires! Aucune sécurité!
Ce sont au mieux des "freeware" mais qui peuvent aussi contenir du malware...
Allo Houston! On a un problème!