Petit témoignage d'un travailleur du Data mining.
(source:
http://www.article11.info/?Big-Data-is- ... ation_page)
Citation:
Bonjour,
je travaille dans le domaine du data mining, en tant que ’lead developper’ (programmeur avec des responsabilités techniques, par opposition à ’chef de projet’, qui a des responsabilités de gestion). Je n’ai pas le recul, ni les connaissances philosophiques pour espérer comprendre cet article de façon exhaustive, j’avoue cependant qu’il est très riche, et j’apprécie particulièrement le recours à Spinoza dans cette problématique. Cela dit, je tenais à apporter quelques précisions, de mon point de vue de « travailleur salarié du data mining ».
Tout d’abord, vous dites que « les données traitées sont elles-mêmes assignifiantes ». Je ne suis pas du tout d’accord avec cette assertion. Il se trouve que dans mon domaine nos données sont signifiantes. Je travaille dans le domaine de détection de la fraude. Je ne peux pas rentrer dans les détails, mais grosso-modo, j’ai à ma disposition une quantité astronomique de données financières sur les entreprises européennes, et mon travail consiste à programmer des algorithmes qui essaient de trouver automatiquement des anomalies. Lorsqu’une anomalie est détectée, nos logiciels génèrent un rapport dans lequel apparaissent clairement les noms des personnes physiques concernées, ainsi que toutes les données relatives à l’anomalie. Toutes ces données on un sens, et elles en ont un même pour les algorithmes qui les traitent (nous disons que les données sont « typées »). Par exemple, le chiffre correspondant au capital d’une entreprise n’est pas traité de la même façon que son résultat net.
Il y a d’autres exemples qui tendent à confirmer le fait que ces données ont du sens. Par exemple, le cas des cartes de fidélités dans les supermarchés (c’est un cas d’école dans la profession). Les supermarchés utilisent ces cartes de fidélité pour agréger des données sur leurs clients. Cela va des données personnelles (age, adresse, etc.), aux données que j’appelle « comportementales » (heures et jours auxquels on va faire notre courses, type de produits achetés, etc.). Et bien ces données ont bel et bien une signification. Lorsque les « consultants buiseness » de ces grandes entreprises étudient les rapports produits par les logiciels de data mining, ils voient bien que Mr Untel, tel age, telle profession, a tel type de comportement.
Je pense donc que cet objet (les données) n’est pas un nouvel objet, du moins ontologiquement. Sa forme est nouvelle, pas sa nature. Dans l’Égypte des pharaons, les scribes géraient des sortes de cadastres. Il s’agit déjà, ontologiquement, de data mining.
« Le président de Google a ainsi expliqué qu’il deviendra bientôt très difficile pour les individus de vouloir quelque chose qui n’a pas été prévu pour eux par sa firme. »
Voilà, selon moi, le plus gros risque du data mining. J’aime bien le présenter ainsi (la phrase n’est pas de moi) : le risque n’est pas que les machines deviennent humaines, mais que les humains deviennent des machines. Je m’explique :
En fait, nous sommes au début d’une révolution dans notre rapport avec nos représentations. Les évolutions de l’intelligence artificielle vont tout chambouler, je peux vous l’assurer. Déjà, avec le « machine learning », nous créons des algorithmes qui apprennent par eux-même. Nous ne savons pas où ça va nous mener. Que se passera-t-il, par exemple, lorsque ces algorithmes appliqueront des connaissances qu’ils ont acquis par eux-même, mais qui nous sont inaccessible à nous, les humains ? Une autre aspect de ce point : la curiosité artificielle (artificial curiosity). C’est quelque chose que nous utilisons de plus en plus pour détecter des anomalies, mais surtout des corrélations dans les données. Cela consiste à faire en sorte que l’algorithme ne se contente pas de chercher ce qu’on lui demande de chercher, mais qu’il tente, par lui-même, d’explorer des voies aléatoirement. En gros, il s’agit d’algorithmes qui créent eux-même, aléatoirement, d’autres algorithmes, qui en analysent eux-même les résultats, et prennent en compte ces résultats pour créer de nouveaux algorithmes.
Entre le « machine learning » et le « artifical curiosity », voilà deux choses que nous ne devons pas laisser aux machines car ce sont deux choses qui font de nous des êtres humains. Nous sommes curieux et nous apprenons. Lorsque nous laissons Google être curieux à notre place et Wikipédia apprendre à notre place, nous cessons d’être des humains. C’est à mon avis ici que se cache le plus grand danger.
« Il y a un risque de confondre le réel avec le réel numérisé ? »
Oui, mais ce problème n’est pas nouveau. Les données, qu’elles soient « big » ou non, sont une représentation. Pareil pour tous les arts, pour les modèles scientifiques, ainsi du suite. Jusqu’à notre perception (ce que nous transmettent nos sens). Donc à ce niveau là, je crois que nous sommes en face d’une problème inhérent à l’être humain, celui de la représentation, de comment on la construit et comment on l’utilise.
Et c’est, je crois, un point bon d’entrée au problème, un bon « outil de vulgarisation ». Les algorithmes de data mining génèrent des représentations (en utilisant, entre autres, des modèles). Le problème est de savoir « comment doit-on construire ces modèles », mais surtout, « qu’est-ce qu’on en fait ». Le problème c’est qu’il y a des millions de personnes qui travaillent sur ces algorithmes. La chaîne est longue, et beaucoup d’entreprises et d’institutions sont dans la compétition. Il y a ceux qui fournissent les données (souvent nous-même en tant que consommateur ou simple citoyen), ceux qui récoltent les données, ceux qui les trient, ceux qui les formatent, ceux qui les traitent. Parallèlement, il y a ceux qui théorisent les algorithmes, ceux qui les implémentent, ceux qui les testent et les améliorent, ceux qui les utilisent, ceux qui les achètent et qui décident comment ils vont être utilisés, etc, etc. Le nombre de personnes impliqués dans cette histoire est tellement important que les responsabilités sont totalement diluées, et en réalité, il s’agit maintenant d’une question politique.