J'ai testé (sur une copie locale vers une machine dotée d'un GPU) l'API Python Ollama qui permet de se connecter à plusieurs modèles (dont DeepSeek), en essayant de lui demander d'extraire les noms propres de textes en français issus de journaux de la fin du 19ème, mal scannés (OCR avec Tesseract), puis de corriger les problèmes de grammaire et d'orthographe (non pas sur DeepSeek, mais Llama, le modèle de Facebook)
Lorsqu'on envoie les données par une interface graphique de type Chatbot (OpenWebUI), c'est la cata, mais via un script Python qui appelle Ollama (pas bien compliqué et dont les requêtes sont faiblement structurées) cela devient nettement plus intéressant. Avec néanmoins, parfois, des contre-sens complets.
Le modèle réfléchit trop et distingue que le texte mobilise le champ lexical de l'abondance, avant de proposer des corrections, plutôt que d'effectuer une recherche de proximité à partir des lettres du mot (plus simple au point de vue algorithmique, et qui serait plus fiable dans ce cas-ci, mais plus coûteuse en temps...) .
* "es" devient "est"
* "sourees" devient "sources"
* "fleuve Jaune est inhabité;" devient "les sources du fleuve Jaune sont inhabitées;"
* "yaks y sont inndmbrables" devient "yaks y sont inabondants"
* "M. Prjévalskys'est" devient "M. Prjévalski est"
* "des coups de fasil les ont fait reculer,mais le passage du fleave Bleu est devenu impossible." devient "des coups de feu les ont fait reculer, mais le passage du fleuve Bleu est devenu impossible."
* "M. Prjévalskydut rebrousser chemin" devient "M. Prjévalski dut rebrousser chemin"
Autre problème, surprenant : on dirait un forumiste de 2005, il frime un peu comme nous, la réponse est particulièrement verbeuse et le texte corrigé est présent, mais noyé dans ses explications, les indications des passages où il a eu du mal. Rien ne garantit que ses réponses auront toujours la même structure. Du coup l'extraction des résultats est difficile à automatiser (alors que c'est au départ le but du jeu). On arrive dans un univers où même les robots vont nous dire qu'ils ne font pas d'analyse ou de modèles de données normalisés parce que cela prend du temps, bref un bordel potentiel.
Le paradoxe est que la communication entre machines est en fait quasiment dégradée par l'AI. Bruno Latour risque de tourner comme un moteur dans sa tombe.
En vérité, quand on rajoute au message
can you send the result text only, without comment cela fonctionne, mais le problème de normalisation et de structure est déplacé du côté de la requête .