CasusNO

Publié : **lun. avr. 20, 2026 12:42 am**

De mon côté, j'ai donné à l'IA 600 feuillets en ouzbek non normé du milieu des années 20 pour numérisation et mise aux normes orthographiques actuelles.
Cela m'a pris deux semaines de travail à temps plein. C'est toujours mieux que de taper à la main ou de corriger manuellement, mais la vérification a été usante, le LLM employé ayant une vilaine tendance à lisser la langue et à remplacer des mots pour qu'ils collent mieux au contexte probable ou à la langue globale du document, évacuant les nombreux russismes de mes textes pour les remplacer par tout autre chose.
Plus je peux me tenir loin de la machine et m'en tenir à mes compétences, mieux je me porte.

Publié : **lun. avr. 20, 2026 10:34 am**

Mais, au final, si tu avais du faire le travail sans IA, ca aurait été plus fatigant ou pas pour toi ? plus couteux en temps ou pas ?

J'aurai pas cru par contre l'IA que savait gérer ce type de travail

Publié : **lun. avr. 20, 2026 12:58 pm**

Morningkill a écrit : ↑lun. avr. 20, 2026 10:34 am Mais, au final, si tu avais du faire le travail sans IA, ca aurait été plus fatigant ou pas pour toi ? plus couteux en temps ou pas ?

J'aurai pas cru par contre l'IA que savait gérer ce type de travail

J'aurais pu tout taper à la main, ce qui aurait été plus coûteux en temps encore. Je tape très vite, mais pas encore assez, et c'est une tache pénible. Ensuite, j'ai du du mal à reconnaître certains mots à cause de la graphie et j'aurais dû faire des recherches et m'interrompre. Le problème vient des o, des a et des o', pour lesquels on ne peut pas établir une équivalence stricte (certains o sont devenus des a, d'autres non). Les j ne sont pas toujours évidents non plus. Pour d'autres lettres, c'est plus facile.

Ensuite, les OCR classiques ne fonctionnaient pas et produisaient beaucoup d'erreurs, même après un paramétrage serré, la faute à la basse qualité de certaines photos, prises dans de mauvaises conditions. En nettoyant le résultat d'un OCR, cela m'aurait pris un mois et demi je pense. Je me suis bien emmerdé, mais le gain est substantiel.

Inversement, un LLM peut très bien déduire les mots, mais il faut lui donner plein de contraintes pour éviter les hallucinations. Mon protocole comportait une bonne vingtaine de lignes de consignes, dont une liste de noms propres récurrents, l'injonction à ne pas améliorer les phrases ou moderniser la langue, la préservation des mots empruntés à d'autres langues. Il fallait le répéter toutes les vingt-trente pages, le LLM ayant tendance à n'en faire qu'à sa tête au bout d'un certain temps. Je le nourrissais aussi du texte corrigé pour qu'il aille au plus proche de ce que je voulais. Donc oui, c'est possible et c'est un gain de temps, mais faut vraiment être derrière, page par page.

Ensuite, j'ai donné l'intégralité du texte à DeepL, qui a fourni un truc à peu près compréhensible et sensé, et j'ai fait une version à deux colonnes, que j'ai ensuite débarrassée de ses bêtises, comme des traductions de pseudonymes en noms communs (on ajoute trois jours de travail). Sans être la panacée, c'est une aide pour me repérer vite dans le document et l'étudier dans sa globalité. Ensuite, quand un passage m'intéresse vraiment et que je veux le citer, je le retraduis intégralement à la main.

À la main, je peux traduire des documents entiers, mais je tourne à 10-15 pages par jour en fonction de la difficulté de la langue. C'est plutôt élevé, mais ça reste lent. L'avantage, c'est que j'en retire une connaissance très intime du document, du point de vue du contenu comme de la langue, et que je ne rate rien.
C'est possible pour des documents de plusieurs dizaines de pages mais pas pour un document de 600 pages dont j'avais besoin de prendre connaissance rapidement et dont le déchiffrement fin m'aurait bien pris deux mois, deux mois et demi.

L'autre option est de faire une lecture cursive, sans traduire et en prenant des notes, mais je sais que j'ai tendance à laisser passer des petites choses dans ce cas-là. Le gain de temps par rapport à cette solution n'est pas si évident et mérite d'être réfléchi. Pour 600 pages, en russe, où je suis fluent, ça me prend deux semaines (gain marginal), en ouzbek, où je suis juste compétent, entre trois et quatre (gain de 50% avec un texte complet en prime).

Publié : **lun. avr. 20, 2026 2:04 pm**

Après, le niveau au-dessus du prompt c'est du multi-agent.

@Macbesse avec des couples effecteur / vérificateur (potentiellement plusieurs si tu sens qu'il y a des concepts de vérification bien distincts) + découpage de ton texte en partie (avec un couple par partie) aurait eut être un peu diminué le niveau d'hallucination.

c'est un peu comme le code : écrire des fonctions, découper les tâches etc... rend les agents plus fiables. Ca prend plus de temps à faire mais c'est un vrai trade-off avec la fiabilité et reproductibilité. Perso, j'en suis à préférer un gain moins net de temps mais un résultat plus fiable et plus automatisable. Et la différence avec le code, c'est qu'il n'y a pas besoin de connaitre un langage de programmation

Publié : **lun. avr. 20, 2026 2:33 pm**

Vorghyrn a écrit : ↑lun. avr. 20, 2026 2:04 pm @Macbesse avec des couples effecteur / vérificateur (potentiellement plusieurs si tu sens qu'il y a des concepts de vérification bien distincts) + découpage de ton texte en partie (avec un couple par partie) aurait eut être un peu diminué le niveau d'hallucination.

J'avais découpé. Au-delà de trois pages, les hallus augmentaient en fréquence. Au-delà de cinq pages, c'était le plantage. Par contre, je retiens la solution du couple.

Publié : **lun. avr. 20, 2026 2:36 pm**

Macbesse a écrit : ↑lun. avr. 20, 2026 12:58 pm Inversement, un LLM peut très bien déduire les mots, mais il faut lui donner plein de contraintes pour éviter les hallucinations. Mon protocole comportait une bonne vingtaine de lignes de consignes, dont une liste de noms propres récurrents, l'injonction à ne pas améliorer les phrases ou

c'est pas beaucoup 20 Ligns : notre prompt de correction des transcripts audio en fait 100, alor qu'on parle juste de mettre a niveau la transcription audio de visio en francais

#### Common phonetic errors

- Misinterpreted homophones (e.g., "been" vs "bean")
- Distorted technical words (e.g., "Oracle" transcribed as "oracle")
- Misspelt proper names
- Unrecognised or incorrectly segmented acronyms

et on lui dit aussi d'extraire les corrections qu'il a trouvé tout seul , les noms de personnes, aussi, pour que par la suite ces corrections qu'il a trouvé (et qu'on a validé) soient automatiquement pris en compte pour les prochains transcripts a corriger.

moderniser la langue, la préservation des mots empruntés à d'autres langues. Il fallait le répéter toutes les vingt-trente pages, le LLM ayant tendance à n'en faire qu'à sa tête au bout d'un certain temps. Je le nourrissais aussi du texte corrigé pour qu'il aille au plus proche de ce que je voulais. Donc oui, c'est possible et c'est un gain de temps, mais faut vraiment être derrière, page par page.

20- 30 pages, oui tu devais avoir rempli le contexte brute

Après, on en reivent à : L'IA ne fait pas un travail parfait. L'IA ne nous remplace pas à 100%. On n'est pas payé pour juste copier-coller le résultat de l'IA.

Publié : **lun. avr. 20, 2026 2:50 pm**

Morningkill a écrit : ↑lun. avr. 20, 2026 2:36 pm
Macbesse a écrit : ↑lun. avr. 20, 2026 12:58 pm Inversement, un LLM peut très bien déduire les mots, mais il faut lui donner plein de contraintes pour éviter les hallucinations. Mon protocole comportait une bonne vingtaine de lignes de consignes, dont une liste de noms propres récurrents, l'injonction à ne pas améliorer les phrases ou

c'est pas beaucoup 20 Ligns : notre prompt de correction des transcripts audio en fait 100, alor qu'on parle juste de mettre a niveau la transcription audio de visio en francais.

#### Common phonetic errors

- Misinterpreted homophones (e.g., "been" vs "bean")
- Distorted technical words (e.g., "Oracle" transcribed as "oracle")
- Misspelt proper names
- Unrecognised or incorrectly segmented acronyms

et on lui dit aussi d'extraire les corrections qu'il a trouvé tout seul , les noms de personnes, aussi, pour que par la suite ces corrections qu'il a trouvé (et qu'on a validé) soient automatiquement pris en compte pour les prochains transcripts a corriger.

moderniser la langue, la préservation des mots empruntés à d'autres langues. Il fallait le répéter toutes les vingt-trente pages, le LLM ayant tendance à n'en faire qu'à sa tête au bout d'un certain temps. Je le nourrissais aussi du texte corrigé pour qu'il aille au plus proche de ce que je voulais. Donc oui, c'est possible et c'est un gain de temps, mais faut vraiment être derrière, page par page.

20- 30 pages, oui tu devais avoir rempli le contexte brute

Après, on en reivent à : L'IA ne fait pas un travail parfait. L'IA ne nous remplace pas à 100%. On n'est pas payé pour juste copier-coller le résultat de l'IA.

Vingt items en fait, je me suis mal exprimé. Ca doit faire plus de vingt lignes en fait puisque chacun est détaillé. Mais j'aurais peut-être pu détailler encore.
J'avais fait l'insertion des corrections trouvées. Ce qui est intéressant, c'est qu'il est capable de le déduire et de l'implémenter lui-même dans le protocole et de le mettre à jour, ce qui permet de le récupérer.

Publié : **lun. avr. 20, 2026 2:53 pm**

Morningkill a écrit : ↑lun. avr. 20, 2026 2:36 pm
Macbesse a écrit : ↑lun. avr. 20, 2026 12:58 pm

Après, on en reivent à : L'IA ne fait pas un travail parfait. L'IA ne nous remplace pas à 100%. On n'est pas payé pour juste copier-coller le résultat de l'IA.

100% d'accord

je viens de me faire une espèce de recherche intensive sur des white paper, articles scientifiques, rapports de toutes sortes etc... sur un sujet tech / business (donc 50% selon dans mon domaine de compétence). J'ai écris un agent de recherche avancé qui a fait des recherches et écrit un rapport.

Honnêtement les sources sont pertinente et le rapport plutôt bon (j'ai pris 2 bonnes heures pour le disséquer et extraire les hallucinations, peu nombreuses). Je dois encore le compiler et le digérer. Donc travail bien avancé mais pas exploitable directement tel quel. Au total ça va me prendre une grosse demi-journée. Seul, avec mon google-fu, ça aurait été au moins 2 jours et pas sûr que j'aurais trouver certaines de ces sources. Par contre je pense que mes analyses seront meilleures. Je trouve que c'est plutôt un bon usage de l'IA

Publié : **lun. avr. 20, 2026 4:08 pm**

Vorghyrn a écrit : ↑lun. avr. 20, 2026 2:53 pm
100% d'accord

je viens de me faire une espèce de recherche intensive sur des white paper, articles scientifiques, rapports de toutes sortes etc... sur un sujet tech / business (donc 50% selon dans mon domaine de compétence). J'ai écris un agent de recherche avancé qui a fait des recherches et écrit un rapport.

Honnêtement les sources sont pertinente et le rapport plutôt bon (j'ai pris 2 bonnes heures pour le disséquer et extraire les hallucinations, peu nombreuses). Je dois encore le compiler et le digérer. Donc travail bien avancé mais pas exploitable directement tel quel. Au total ça va me prendre une grosse demi-journée. Seul, avec mon google-fu, ça aurait été au moins 2 jours et pas sûr que j'aurais trouver certaines de ces sources. Par contre je pense que mes analyses seront meilleures. Je trouve que c'est plutôt un bon usage de l'IA

Mon domaine est trop mal numérisé / indexé pour que je puisse le faire. En fait, il y a pas mal de ressources en ligne, mais dans des formats image pure et/ou avec des métadonnées lacunaires. Quand j'essaye de lancer un outil comme Elicit sur une recherche de sources ou une compilation de l'historiographie, il ne me donne que le plus évident.
Ca changera peut-être avec le temps.

Mais sinon, 100% d'accord aussi.

Après, on a, chacun dans notre domaine, une certaine expérience. Pour des gens plus jeunes et moins expérimentés, je me dis que ça doit être sacrément intimidant.

Publié : **lun. avr. 20, 2026 8:40 pm**

Reportage de tf1 aujourd'hui, sur l'utilisation de l'IA à l'assemblé nationale française.
Les deputes interogés disent ne pas utiliser l'IA.
Les journalistes recuperent 200 amendements et les font analyser par une socièté spécialisée dans la reconnaissance de l'usage d'IA.
Bilan
16.5% des textes sont suceptible d'avoir été redigé par IA.
18% ont été redigé par une IA.

Publié : **lun. avr. 20, 2026 9:30 pm**

Je suis pas trop convaincu par ton reportage :
- combien de députés ont ils interrogés ?
- le detection de texte ecrit par IA, c'est incertain, a moins quela techa it bcp évolue
- que veux dire rédigé ? Ecrit integralement, juste certains passages, ou corrigé ?

Publié : **mar. avr. 21, 2026 12:16 am**

@Macbesse a donc un métier où il doit rapidement prendre connaissance d'un texte ouzbek de 600 p. des années 1920.... Décidémment, ce monde me fascine...

Sinon, concernant les textes de loi, ça a une formulation assez normalisée il me semble. C'est donc à la fois un domaine où l'IA peut être performante, et donc du coup on peut s'imaginer que le test peut avoir des faux positifs... C'est pas pour défendre les député.es dont je n'imagine pas un seconde qu'iels de cèdent pas aux sirènes de la facilité.

Autre hypothèse : il s'agit de textes transmis par des lobbies qui les ont fait rédiger par des IA, ainsi les députés ne mentiraient pas...

Publié : **mar. avr. 21, 2026 8:36 am**

Au moins, l'IA, quand tu la surprends à faire de la merde, elle avoue et s'excuse, elle.

Publié : **mar. avr. 21, 2026 2:04 pm**

cdang a écrit : ↑mar. avr. 21, 2026 12:16 am @Macbesse a donc un métier où il doit rapidement prendre connaissance d'un texte ouzbek de 600 p. des années 1920.... Décidémment, ce monde me fascine...

C'est un document de 1937 utilisant la graphie latine des langues turciques unifiée mise au point durant les années vingt, nuance. En termes de langue, ce n'est pas tout à fait pareil car les pratiques linguistiques évoluent très vite.

Les chances pour que ça arrive étaient minces. En France, on est trois historiens de l'Asie centrale au XXe siècle et un seul d'entre nous peut diriger des thèses (ce n'est pas moi). Dans le monde, hors des cinq pays concernés, on est un peu plus. Si on restreint aux spécialistes de la littérature ouzbèque, hors Ouzbékistan, on est cinq (Ingeborg Baldauf, Adeeb Khalid, Claire Roosien, Chris Fort et moi). Je suis le seul à pouvoir causer sans dire trop de bêtises de ce qui se passe après 1937. Tous les autres ont travaillé exclusivement sur la période précédente. Après 1962, il n'y a plus personne hors d'Ouzbékistan, et vraiment pas grand monde là-bas. Sur la glasnost', il n'y a juste rien à part les divagations de dissidents russes qui prétendent qu'il ne se passe rien en Asie Centrale.

Ce qui me chagrine, à l'inverse, c'est que l'Asie centrale occupe une place si seconde dans les études historiques, en particulier dans les études soviétiques. Pourtant, rien que Tachkent, à partir de l'après-guerre, c'est l'un des plus gros centres urbains et industriels de l'URSS et c'est l'équivalent de Berlin-Est pour l'Asie et le Tiers-Monde, une vitrine de la réussite soviétique qui actionne tous les leviers possibles, y compris la diplomatie religieuse. Mais occulter les sociétés d'Asie centrale, pour la plupart des collègues d'histoire soviétique, c'est ok.

Désolé du HS !

Publié : **mar. avr. 21, 2026 2:32 pm**

Macbesse a écrit : ↑mar. avr. 21, 2026 2:04 pm Désolé du HS !

Non, au contraire, c'est passionnant ! Enfin ça doit l'être

Il y a donc une invisibilisation de l'Asie centrale...

CasusNO

[I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!

Re: [I.A] Skynet Resistenza!