Big data is fragile

Je copie-colle un extrait de l’interview de Michael Jordan (oui oui) publiée sur IEEE.org que m’a fait suivre le médecin le plus calé en informatique (la pure, la dure) que je connaisse :

Why Big Data Could Be a Big Fail

Spectrum: If we could turn now to the subject of big data, a theme that runs through your remarks is that there is a certain fool’s gold element to our current obsession with it. For example, you’ve predicted that society is about to experience an epidemic of false positives coming out of big-data projects.

Michael Jordan: When you have large amounts of data, your appetite for hypotheses tends to get even larger. And if it’s growing faster than the statistical strength of the data, then many of your inferences are likely to be false. They are likely to be white noise.

Spectrum: How so?

Michael Jordan: In a classical database, you have maybe a few thousand people in them. You can think of those as the rows of the database. And the columns would be the features of those people: their age, height, weight, income, et cetera.

Now, the number of combinations of these columns grows exponentially with the number of columns. So if you have many, many columns—and we do in modern databases—you’ll get up into millions and millions of attributes for each person.

Now, if I start allowing myself to look at all of the combinations of these features—if you live in Beijing, and you ride bike to work, and you work in a certain job, and are a certain age—what’s the probability you will have a certain disease or you will like my advertisement? Now I’m getting combinations of millions of attributes, and the number of such combinations is exponential; it gets to be the size of the number of atoms in the universe.

Those are the hypotheses that I’m willing to consider. And for any particular database, I will find some combination of columns that will predict perfectly any outcome, just by chance alone. If I just look at all the people who have a heart attack and compare them to all the people that don’t have a heart attack, and I’m looking for combinations of the columns that predict heart attacks, I will find all kinds of spurious combinations of columns, because there are huge numbers of them.

So it’s like having billions of monkeys typing. One of them will write Shakespeare.

Spectrum:Do you think this aspect of big data is currently underappreciated?

Michael Jordan: Definitely.

Dis encore plus simplement, y’a le génial XKCD :

significant

 

 

Exégèse là.

Bon week-end !

4 réflexions sur « Big data is fragile »

  1. Il me semble justement que l’analyse statistique qui va avec le big data permet justement de ne pas se retrouver dans la situation du singe qui a écrit une pièce de shakespeare par hasard. Mais les médecins sont meilleurs statisticiens que les ingénieurs :-). Et pour calmer tout le monde sur le sujet, big data ce sont des algos qui existent depuis des années, le machine learning ça date des années soixante … c’est juste que la puissance des machines et le cout marginal nul du stockage permet de faire en quelques millisecondes des calculs qui prenaient des jours ou des années … et que tout est dispo dans le cloud. Regarde l’article de Wired sur l’IA que j’ai posté l’autre jour sur FB http://www.wired.com/2014/10/future-of-artificial-intelligence/

    1. j’ai lu cet article justement et c’est en en discutant avec un copain qu’il m’a répondu par l’interview que je cite ici et que TOI tu ferais bien de lire 😉

      ceci dit ce que MJ dit dans l’interview reste valable, on a de plus en plus de données (le stockage coûte peu) disponible partout (cloud) de la puissance de calcul à gogo… le risque est donc énorme que ces BDD soient moulinés à tort et à travers pour finir par raconter des grosses conneries car à force de faire des comparaisons on finit forcément par trouver des liens statistiquement significatifs sauf qu’ils peuvent être faux

      1. Marcel, mon collègue déjà parti en retraite depuis perpete, avait l’habitude de parler de la statistique comme suit : « l’homme s’est noyé dans un cours d’eau avec un profondeur moyenne de 5 cm ! » …. Lol. Marcel nous rappelle que ce qu’on montre doit avoir du sens … Quel sens de savoir que si vous travaillez ici et que vous venez à vélo (surtout s’il est vert) vous avez de grandes chances d’avoir (de vouloir acheter) une écharpe de telle marque ? Peut-être si j’en vends …. des vélos verts ou des écharpes IAMIS ( http://www.iamis.be belles écharpes et foulards à prix mini, fabricant pour LVMH, Kenzo etc)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *