AccueilđŸ‡«đŸ‡·Chercher

Big data

Mégadonnées

Le big data /ˌbÉȘÉĄ ˈdeÉȘtə/[1] (litt. « grosses donnĂ©es » en anglais), les mĂ©gadonnĂ©es[2] - [3] ou les donnĂ©es massives[2], dĂ©signe les ressources d’informations dont les caractĂ©ristiques en termes de volume, de vĂ©locitĂ© et de variĂ©tĂ© imposent l’utilisation de technologies et de mĂ©thodes analytiques particuliĂšres pour crĂ©er de la valeur[4] - [5], et qui dĂ©passent en gĂ©nĂ©ral les capacitĂ©s d'une seule et unique machine et nĂ©cessitent des traitements parallĂ©lisĂ©s.

L’explosion quantitative (et souvent redondante) des donnĂ©es numĂ©riques permet une nouvelle approche pour analyser le monde[6]. Le volume colossal de donnĂ©es numĂ©riques disponibles, implique de mettre en oeuvre de nouveaux ordres de grandeur concernant la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des donnĂ©es. Le traitement des big data[7] permet de nouvelles possibilitĂ©s d'exploration de l'information et des donnĂ©es, celles-ci proviennent de nombreuses sources numĂ©riques : les rĂ©seaux sociaux, les mĂ©dias[8], l'OpenData, le Web, des bases de donnĂ©es privĂ©es, publiques Ă  caractĂšre commercial ou scientifique. Cela permet des recoupements et des analyses prĂ©dictives dans de nombreux domaines : scientifique, santĂ©, Ă©conomique, commercial
 La multiplicitĂ© des applications a Ă©tĂ© comprise et dĂ©veloppĂ©e par les plus gros acteurs du secteur des technologies de l'information[9].

Divers experts, grandes institutions (comme le MIT[10] aux États-Unis, le CollĂšge de France[11] en Europe), administrations[12] et spĂ©cialistes sur le terrain des technologies ou des usages[13] considĂšrent le phĂ©nomĂšne big data comme l'un des grands dĂ©fis informatiques de la dĂ©cennie 2010-2020 et en ont fait une de leurs nouvelles prioritĂ©s de recherche et dĂ©veloppement, qui pourrait notamment conduire Ă  l'Intelligence artificielle en Ă©tant explorĂ© par des rĂ©seaux de neurones artificiels autoapprenants[14].

Une visualisation des données créée par IBM[15] montre que les big data sur les modifications de Wikipedia par le robot Pearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations[16].

Histoire

Croissance de la capacité mondiale de stockage de données et informations[17].

Le big data a une histoire récente et pour partie cachée, en tant qu'outil des technologies de l'information et comme espace virtuel prenant une importance volumique croissante dans le cyberespace .

L'expression « big data » serait apparue en octobre 1997 selon les archives de la bibliothÚque numérique de l'Association for Computing Machinery (ACM), dans un article scientifique sur les défis technologiques à relever pour visualiser les « grands ensembles de données »[18].

La naissance du Big Data est liĂ©e aux progrĂšs des capacitĂ©s des systĂšmes de stockage, de fouille et d'analyse de l'information numĂ©rique, qui ont vĂ©cu une sorte de big bang des donnĂ©es[19]. Mais ses prĂ©mices sont Ă  trouver dans le croisement de la cybernĂ©tique et de courants de pensĂ©e nĂ©s durant la Seconde Guerre mondiale, selon lesquels l’homme et le monde peuvent ĂȘtre reprĂ©sentĂ©s comme « des ensembles informationnels, dont la seule diffĂ©rence avec la machine est leur niveau de complexitĂ©. La vie deviendrait alors une suite de 0 et de 1, programmable et prĂ©dictible »[20].

Les Ă©volutions qui caractĂ©risent le big data et ses algorithmes, ainsi que celles de la science des donnĂ©es sont en partie cachĂ©es (au sein des services de renseignement des grands États) et si rapides et potentiellement profondes que peu de prospectivistes se risquent Ă  pronostiquer son devenir Ă  moyen ou long terme[21], mais la plupart des observateurs y voient des enjeux majeurs pour l'avenir, tant en termes d'opportunitĂ©s commerciales[22] que de bouleversements sociopolitiques et militaires, avec en particulier le risque de voir Ă©merger des systĂšmes ubiquistes, orwelliens[23] et totalitaires capables de fortement contrĂŽler, surveiller et/ou influencer les individus et groupes.

Les risques de dérives de la part de gouvernements ou d'entreprises[24] ont surtout d'abord été décrits par Orwell à la fin de la derniÚre guerre mondiale, puis souvent par la science fiction. Avec l'apparition de grandes banques de données dans les années 1970 (et durant toute la période de la guerre froide) de nombreux auteurs s'inquiÚtent des risques pris concernant la protection de la vie privée[25], en particulier Arthur R. Miller (en) qui cite l'exemple de la croissance des données stockées relatives à la santé physique et psychique des individus[26] - [27] - [28].

En 2000, Froomkin, dans un article paru dans la revue Stanford Law Review, se demande si la vie privée n'est pas déjà morte[29], mais ce sont surtout les révélations d'Edward Snowden (2013) qui ont suscité une nouvelle prise de conscience et d'importants mouvements de protestation citoyenne.

Les quatre droits et « Ă©tats de base de la vie privĂ©e » tels qu'Ă©noncĂ©s par Westin en 1962 (droit Ă  la solitude[30], Ă  l'intimitĂ©, Ă  l'anonymat dans la foule et Ă  la rĂ©serve) sont menacĂ©s dans un nombre croissant de situations[31], de mĂȘme que la protection du contenu des courriers Ă©lectroniques[32] qui fait partie du droit Ă  la vie privĂ©e[33].

Dimensions

Le big data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens[34]. Ces analyses sont appelées big analytics[35] ou « broyage de données ». Elles portent sur des données quantitatives complexes à l'aide de méthodes de calcul distribué et de statistiques.

En 2001, un rapport de recherche du META Group (devenu Gartner)[36] dĂ©finit les enjeux inhĂ©rents Ă  la croissance des donnĂ©es comme Ă©tant tri-dimensionnels : les analyses complexes rĂ©pondent en effet Ă  la rĂšgle dite « des 3V » (volume, vĂ©locitĂ© et variĂ©tĂ©[37]). Ce modĂšle est encore largement utilisĂ© aujourd’hui pour dĂ©crire ce phĂ©nomĂšne[38]. Aux 3 V initiaux, sont parfois ajoutĂ©s d'autres V comme : VĂ©racitĂ©, Valeur et Visualisation[39] - [40].

Volume

C'est une dimension relative : le big data, comme le notait Lev Manovitch en 2011[41], définissait autrefois « les ensembles de données suffisamment grands pour nécessiter des super-ordinateurs », mais il est rapidement (dans les années 1990/2000) devenu possible d'utiliser des logiciels standards sur des ordinateurs de bureau pour analyser ou co-analyser de vastes ensembles de données[42].

Le volume des donnĂ©es stockĂ©es est en pleine expansion : les donnĂ©es numĂ©riques crĂ©Ă©es dans le monde seraient passĂ©es de 1,2 zettaoctet par an en 2010 Ă  1,8 zettaoctet en 2011[43], puis 2,8 zettaoctets en 2012 et s'Ă©lĂšveront Ă  64 zettaoctets en 2020[44], et 2 142 zettaoctets en 2035[44]. À titre d'exemple, Twitter gĂ©nĂ©rait en janvier 2013, tĂ©raoctets de donnĂ©es chaque jour et Facebook 10 tĂ©raoctets[45]. En 2014, Facebook Hive gĂ©nĂ©rait 4 000 To de data par jour[46].

Les installations technico-scientifiques (mĂ©tĂ©orologie, etc.) produiraient le plus de donnĂ©es. De nombreux projets de dimension pharaonique sont en cours. Le radiotĂ©lescope Square Kilometre Array par exemple produira 50 tĂ©raoctets de donnĂ©es analysĂ©es par jour, tirĂ©es de donnĂ©es brutes produites Ă  un rythme de 7 000 tĂ©raoctets par seconde[47].

Variété

Le volume des big data met les centres de données face à un réel défi : la variété des données.

Il ne s'agit pas uniquement de donnĂ©es relationnelles traditionnelles, mais surtout de donnĂ©es brutes, semi-structurĂ©es, voire non structurĂ©es (cependant, les donnĂ©es non structurĂ©es devront ĂȘtre analysĂ©es et structurĂ©es ultĂ©rieurement si nĂ©cessaire pour leur utilisation[48]).

Ce sont des données complexes qui proviennent de multiples sources : du web (Web mining), de bases publiques (open data, Web des données), géo-démographiques par ßlot (adresses IP), machines ou objets connectés (IoT), ou relever de la propriété des entreprises et des consommateurs, ce qui les rend inaccessibles aux outils traditionnels.

La dĂ©multiplication des outils de collecte sur les individus et sur les objets permet d’amasser toujours plus de donnĂ©es[49]. Les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre des donnĂ©es de natures diffĂ©rentes.

Vélocité

La vélocité représente la fréquence à laquelle les données sont à la fois engendrées, capturées, partagées et mises à jour[50].

Des flux croissants de donnĂ©es doivent ĂȘtre analysĂ©s en quasi-temps rĂ©el (fouille de flots de donnĂ©es) pour rĂ©pondre aux besoins des processus chrono-sensibles[51]. Par exemple, les systĂšmes mis en place par la bourse et les entreprises doivent ĂȘtre capables de traiter ces donnĂ©es avant qu’un nouveau cycle de gĂ©nĂ©ration n’ait commencĂ©, avec le risque pour l'Homme de perdre une grande partie de la maĂźtrise du systĂšme quand les principaux opĂ©rateurs deviennent des machines sans disposer de tous les critĂšres pertinents d'analyse pour le moyen et long terme.

Véracité

La vĂ©racitĂ© fait rĂ©fĂ©rence Ă  la fiabilitĂ© et Ă  la dimension qualitative des donnĂ©es. Traiter et gĂ©rer l’incertitude et les erreurs rencontrĂ©es dans certaines donnĂ©es, reprĂ©sente un challenge de taille pour fiabiliser et minimiser les biais[39] - [40].

Valeur

Les efforts et les investissements dans l'utilisation et application Big Data n’ont de sens que si elles apportent de la valeur ajoutĂ©e[39] - [40].

Visualisation

La mise en forme et mise à disposition des données et des résultats de l'analyse des données, permet de faciliter sa compréhension et son interprétation, afin d'améliorer la prise de décisions[39].

Différence avec l'informatique décisionnelle

Si la dĂ©finition du Gartner en 3V est encore largement reprise (voire augmentĂ©e de « V » supplĂ©mentaires selon l’inspiration des services marketing), la maturation du sujet fait apparaĂźtre un autre critĂšre plus fondamental de diffĂ©rence avec l'informatique dĂ©cisionnelle et concernant les donnĂ©es et leur utilisation[52] :

  • Informatique dĂ©cisionnelle : utilisation de statistique descriptive, sur des donnĂ©es Ă  forte densitĂ© en information afin de mesurer des phĂ©nomĂšnes, dĂ©tecter des tendances
 ;
  • Big data : utilisation de statistique infĂ©rentielle, sur des donnĂ©es Ă  faible densitĂ© en information[53] dont le grand volume permet d’infĂ©rer des corrĂ©lations et lois mathĂ©matiques ou statistiques (rĂ©gressions
) donnant dĂšs lors au big data (avec les limites de l’infĂ©rence) des capacitĂ©s de gĂ©nĂ©ralisation pouvant ĂȘtre qualifiĂ©es de prĂ©dictives[54].

Synthétiquement :

  • l'informatique traditionnelle, informatique dĂ©cisionnelle comprise, est basĂ©e sur un modĂšle du monde ;
  • le big data vise Ă  ce que les mathĂ©matiques trouvent un modĂšle dans les donnĂ©es[55] - .

Représentation

Schéma montrant l'évolution des données en fonction de leur volume, leur temps d'accÚs et leur variété.

ModĂšles

Les bases de donnĂ©es relationnelles classiques ne permettent pas de gĂ©rer les volumes de donnĂ©es du big data. De nouveaux modĂšles de reprĂ©sentation permettent de garantir les performances sur les volumĂ©tries en jeu. Ces technologies, dites de business analytics and optimization (BAO) permettent de gĂ©rer des bases massivement parallĂšles[56]. Des patrons d’architecture (« big data architecture framework », BDAF)[57] sont proposĂ©s par les acteurs de ce marchĂ© comme MapReduce crĂ©Ă© par Google et utilisĂ© dans le framework Hadoop. Avec ce systĂšme, les requĂȘtes sont sĂ©parĂ©es et distribuĂ©es Ă  des nƓuds parallĂ©lisĂ©s, puis exĂ©cutĂ©es en parallĂšle (map). Les rĂ©sultats sont ensuite rassemblĂ©s et rĂ©cupĂ©rĂ©s (reduce). Teradata, Oracle ou EMC (via le rachat de Greenplum) proposent Ă©galement de telles structures, basĂ©es sur des serveurs standards dont les configurations sont optimisĂ©es. Ils sont concurrencĂ©s par des Ă©diteurs comme SAP et plus rĂ©cemment Microsoft[58]. Les acteurs du marchĂ© s’appuient sur des systĂšmes Ă  forte Ă©volutivitĂ© horizontale et sur des solutions basĂ©es sur du NoSQL (MongoDB, Cassandra) plutĂŽt que sur des bases de donnĂ©es relationnelles classiques[59].

Stockage

Pour rĂ©pondre aux problĂ©matiques big data, l’architecture de stockage des systĂšmes doit ĂȘtre repensĂ©e et les modĂšles de stockage se multiplient en consĂ©quence.

  • Lac de donnĂ©es : moyen de stockage de donnĂ©es massives en clusters, et gardĂ©es dans leurs formats originaux, pour pouvoir stocker tout format de donnĂ©es de maniĂšre rapide et peu coĂ»teuse.
  • Cloud computing[60] : l’accĂšs se fait via le rĂ©seau, les services sont accessibles Ă  la demande et en libre service sur des ressources informatiques partagĂ©es et configurables[61]. Les services les plus connus sont ceux de Google BigQuery, Big Data sur Amazon Web Services et Microsoft Windows Azure.
  • Super calculateurs hybrides : les HPC pour high performance computing, peuvent ĂȘtre utilisĂ©s dans le domaine des Big Data pour leur puissance de calcul et d'analyse. On en retrouve en France dans les centres nationaux de calculs universitaire tels que l’IDRIS, le CINES, mais aussi au CEA ou encore le HPC-LR[62] ou Ă  MĂ©tĂ©o France[63] - [64].
  • SystĂšmes de fichiers distribuĂ©s (ou DFS pour distributed file system) : les donnĂ©es ne sont plus stockĂ©es sur une seule machine car la quantitĂ© est beaucoup trop importante. Les donnĂ©es sont rĂ©parties sur une machine bien prĂ©cise utilisant du stockage local[65]. Le stockage local est prĂ©fĂ©rĂ© au stockage SAN et NAS pour des raisons de goulots d'Ă©tranglement au niveau du rĂ©seau et des interfaces rĂ©seaux des SAN. De plus, utiliser un stockage de type SAN coĂ»te bien plus cher pour des performances bien moindres. Dans les systĂšmes de stockage distribuĂ© pour le big data, l'on introduit le principe de data locality[65]. Les donnĂ©es sont sauvegardĂ©es lĂ  oĂč elles peuvent ĂȘtre traitĂ©es.
  • Virtualisation du stockage : La virtualisation des donnĂ©es est un moyen de rassembler des donnĂ©es provenant de plusieurs sources dans une seule « vue ». L'assemblage est virtuel : contrairement Ă  d'autres mĂ©thodes, la plupart des donnĂ©es restent en place et sont extraites des sources brutes Ă  la demande[66].

Applications

Le big data trouve des applications dans de nombreux domaines : programmes scientifiques (CERN28 Mastodons), outils d'entreprises (IBM29, Amazon Web Services, BigQuery, SAP HANA) parfois spécialisées (Teradata, Jaspersoft30, Pentaho31
) ou startups, ainsi que dans le domaine de l'open source (Apache Hadoop, Infobright32, Talend33
) et de logiciels d'exploitation ouverts (avec par exemple le logiciel ouvert d'analyse de big data H2O).

Les applications du BigData sont trĂšs nombreuses : il permet des recoupements et des analyses prĂ©dictives dans les domaines de connaissance et d'Ă©valuation, d'analyse tendancielle et prospective (climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des risques (commerciaux, assuranciels, industriels, naturels) et de prise de dĂ©cisions, et de phĂ©nomĂšnes religieux, culturels, politiques[67], mais aussi en termes de gĂ©nomique ou mĂ©tagĂ©nomique[68], pour la mĂ©decine (comprĂ©hension du fonctionnement du cerveau, Ă©pidĂ©miologie, Ă©coĂ©pidĂ©miologie
), la mĂ©tĂ©orologie et l'adaptation aux changements climatiques, la gestion de rĂ©seaux Ă©nergĂ©tiques complexes (via les smartgrids ou un futur « internet de l'Ă©nergie »), l'Ă©cologie (fonctionnement et dysfonctionnement des rĂ©seaux Ă©cologiques, des rĂ©seaux trophiques avec le GBIF par exemple), ou encore la sĂ©curitĂ© et la lutte contre la criminalitĂ©[69], ou encore amĂ©liorer l'« expĂ©rience client » en la rendant plus personnalisĂ©e et contextualisĂ©e[70]. La multiplicitĂ© de ces applications laisse d'ailleurs dĂ©jĂ  poindre un vĂ©ritable Ă©cosystĂšme Ă©conomique impliquant, d'ores et dĂ©jĂ , les plus gros acteurs du secteur des technologies de l'information[9].

Recherche scientifique

Le big data en est issu et il alimente une partie de la recherche. Ainsi le Large Hadron Collider du CERN utilise environ 150 millions de capteurs dĂ©livrant des donnĂ©es 40 millions de fois par seconde ; Pour 600 millions de collisions par seconde, il reste aprĂšs filtrage 100 collisions d'intĂ©rĂȘt par seconde, soit 25 Po de donnĂ©es Ă  stocker par an, et 200 Po aprĂšs rĂ©plication[71] - [72] - [73]. Les outils d'analyse du big data pourraient affiner l'exploitation de ces donnĂ©es.

Quand le Sloan Digital Sky Survey (SDSS) a commencĂ© Ă  collecter des donnĂ©es astronomiques en 2000, il a amassĂ© en quelques semaines plus de donnĂ©es que toutes celles prĂ©cĂ©demment collectĂ©es dans l’histoire de l’astronomie. Il continue Ă  un rythme de 200 Go par nuit, et a en 10 ans (2000-2010) stockĂ© plus de 140 tĂ©raoctets d’information. Le Large Synoptic Survey Telescope prĂ©vu pour 2015 devrait en amasser autant tous les cinq jours[74].

DĂ©coder le premier gĂ©nome humain a nĂ©cessitĂ© dix ans, mais prend aujourd'hui moins d'une semaine : les sĂ©quenceurs d'ADN ont progressĂ© d'un facteur 10 000 les dix derniĂšres annĂ©es, soit 100 fois la loi de Moore (qui a progressĂ© d'un facteur 100 environ sur 10 ans)[75]. En biologie, les approches massives basĂ©es sur une logique d’exploration des donnĂ©es et de recherche d’induction sont lĂ©gitimes et complĂ©mentaires des approches classiques basĂ©es sur l'hypothĂšse initiale formulĂ©e[76]. Le big data s'est aussi introduit dans le domaine des protĂ©ines.

Le NASA Center for Climate Simulation (NCCS) stocke 32 Po de donnĂ©es d’observations et de simulations climatiques[77].

Les sciences sociales explorent des corpus aussi variés que le contenu de Wikipédia dans le monde ou les millions de publications et de tweets sur Internet.

PlanĂšte et climat

Le big data mondial contient des donnĂ©es essentielles « pour rĂ©soudre l'Ă©quation climatique », et notamment pour amĂ©liorer l'efficacitĂ© Ă©nergĂ©tique des villes et bĂątiments, pour les smartgrids, pour vĂ©rifier l'application de rĂšglementations visant Ă  lutter contre la dĂ©forestation, la surpĂȘche, la dĂ©gradation des sols, le gaspillage alimentaire ou Ă  mieux gĂ©rer les dĂ©chets, Ă©co-consommer ou inciter les investisseurs Ă  crĂ©er des villes intelligentes[78], etc.

Lors de la COP 23 (Bonn, 2017) un événement parallÚle de haut niveau organisé par le « Forum sur l'innovation durable » et le PNUD a réuni des dirigeants de sociétés de données du secteur privé et des représentants des Nations unies. Ce groupe a appelé à développer la « philanthropie des données », c'est-à-dire à massivement et de maniÚre altruiste partager les données[79] - [80] pour stimuler l'efficacité, l'innovation et le soutien aux actions de protection du climat et de résilience face au changement climatique. Une meilleure collecte, mise à disposition de tous, analyse et utilisation des données volumineuses est une condition selon ce groupe pour atteindre l'objectif 2030 no 13 (pour le climat) de l'ONU[81] et les objectifs de l'Accord de Paris sur le climat[78].

C'est ce qu'y a rappelé Amina J. Mohammed, Secrétaire générale adjointe des Nations unies, dans son discours d'ouverture. C'est le cas notamment des données météo nécessaires à l'agriculture, à la protection de l'économie et des infrastructures vulnérables aux aléas climatiques[78].

En 2017, le PNUD aide plus de 75 pays Ă  moderniser leurs systĂšmes de surveillance mĂ©tĂ©orologique et climatiques. Dans les pays dits Ă©mergents, un effort reste Ă  faire pour le « dernier kilomĂštre » ; par exemple, les « opĂ©rateurs mobiles » pourraient mieux recevoir l'information mĂ©tĂ©orologique et aider Ă  un partage des donnĂ©es sur les rĂ©coltes et problĂšmes de culture via des tĂ©lĂ©phones portables ; les antennes relais pourraient elles-mĂȘmes, en lien avec des sociĂ©tĂ©s de Big Data devenir des plates-formes de regroupement de donnĂ©es utiles Ă  l'Ă©laboration de plans locaux et nationaux d'adaptation au changement climatique, et utiles Ă  l'Ă©laboration de stratĂ©gies sectorielles de rĂ©silience climatique[78].

Les difficultés d'anonymisation de la donnée privée restent cependant un important frein au partage efficace de données massives entre les décideurs et le grand-public. La « philanthropie des données » vise à faire des secteurs public et privé deux partenaires égaux[78].

  • En 2016, le PNUD a organisĂ© un concours d'innovation (Climate Action Hackathon) qui a attribuĂ© des bourses Ă  23 dĂ©veloppeurs Web pour crĂ©er des applications mobiles de terrain en Afrique, utilisant les donnĂ©es climatiques et mĂ©tĂ©orologiques[78].
  • En 2017 un concours « Data for Climate Action Challenge » a Ă©tĂ© lancĂ© dĂ©but 2017 par Global Pulse (Onu) pour susciter l'innovation en matiĂšre de donnĂ©es ouvertes axĂ©e sur l'exploitation du Big Data et de l'analyse de donnĂ©es au service du bien commun. Ce concours vise Ă  catalyser l'action sur le changement climatique. Il a mis en relation 97 Ă©quipes de recherche (semi-finalistes) avec des jeux de donnĂ©es venant de 11 entreprises[78].

En 2016 Taylor s'interroge : Quand le big data est prĂ©sentĂ© comme un commun ou un bien public ; de quel bien parle-t-on ? et Ă  quel public le destine-t-on rĂ©ellement[82] ? en citant notamment Robert Kirkpatrick (directeur de UN Global Pulse) pour qui « le big data est comme un nouveau type de ressource naturelle (ou non-naturelle) infiniment renouvelable, de plus en plus omniprĂ©sente - mais qui est tombĂ©e entre les mains d'une industrie extractive opaque et largement non rĂ©glementĂ©e, qui commence seulement Ă  se rendre compte qu'il existe une opportunitĂ© sociale - et peut-ĂȘtre une responsabilitĂ© sociale - Ă  s'assurer que ces donnĂ©es atteignent les personnes qui en ont le plus besoin »[79] - [82].

Politique, Ă©lections, et renseignement

L’analyse du big data a jouĂ© un rĂŽle important dans la campagne de rĂ©Ă©lection de Barack Obama, notamment pour analyser les opinions politiques de la population[83] - [84] - [85].

Depuis 2012, le dĂ©partement de la DĂ©fense amĂ©ricain investit annuellement sur les projets big data plus de 250 millions de dollars[86]. Le gouvernement amĂ©ricain possĂšde six des dix plus puissants supercalculateurs de la planĂšte[87]. La National Security Agency a notamment construit le Utah Data Center qui stocke depuis septembre 2014 jusqu'Ă  un yottaoctet d’informations collectĂ©es par la NSA sur internet[88]. En 2013, le big data faisait partie des sept ambitions stratĂ©giques de la France dĂ©terminĂ©es par la Commission innovation 2030[89].

Profilage des utilisateurs par le secteur privé

La revente de fichier de profil utilisateur peut participer au big data.

Walmart traite plus d'un million de transactions client par heure, importĂ©es dans des bases de donnĂ©es qui contiendraient plus de 2,5 Po d’information[90]. Facebook traite 50 milliards de photos. D’une maniĂšre gĂ©nĂ©rale l'exploration de donnĂ©es de big data permet l’élaboration de profils clients dont on ne supposait pas l’existence[91].

Le musĂ©e Solomon R. Guggenheim construit sa stratĂ©gie en analysant des donnĂ©es massives : dans les salles des transmetteurs Ă©lectroniques suivent les visiteurs tout au long de leur visite. Le musĂ©e dĂ©termine ainsi de nouveaux parcours de visite en fonction des Ɠuvres les plus apprĂ©ciĂ©es, ou dĂ©cider des expositions Ă  mettre en place[92].

Secteur énergétique

Les bùtiments intelligents (éventuellement au sein de villes intelligentes) sont caractérisés par une « hybridation » entre numérique et énergie.

Ces bĂątiments ou logements individuels peuvent produire de l'Ă©nergie (voire ĂȘtre positifs en Ă©nergie). Ils peuvent aussi produire des donnĂ©es sur cette Ă©nergie et/ou sur leur consommation d'Ă©nergies. Ces donnĂ©es une fois agrĂ©gĂ©es et analysĂ©es peuvent permettre d'apprĂ©hender voire d'anticiper la consommation des usagers, des quartiers, villes, etc. en fonction des variations du contexte, mĂ©tĂ©orologique notamment.

L'analyse des données collectées de production (solaire, microéolien
) et de consommation dans un bùtiment, par le biais des objets connectés et du smartgrid, permet aussi potentiellement de mieux gérer la consommation des usagers (de maniÚre personnalisée).

En attendant un dĂ©veloppement plus large du stockage de l'Ă©nergie, les jours nuageux et sans vent il faut encore faire appel Ă  des centrales conventionnelles, et les jours exceptionnellement beaux et venteux (ex. : en Allemagne, 8 mai 2016 oĂč durant 4 heures le vent et le soleil ont engendrĂ© plus de 90 % de l'Ă©lectricitĂ© du pays, les centrales Ă©lectriques au charbon et au gaz doivent rĂ©duire Ă  temps leur production). Un cas extrĂȘme est celui d’une Ă©clipse solaire (prĂ©visible). La gestion de ces pics et intermittences coĂ»te aujourd’hui plus de 500 millions €/an Ă  l’Allemagne et conduit Ă  des Ă©missions de CO2 et autres gaz Ă  effet de serre que l’on voudrait Ă©viter[93]. GrĂące aux corrĂ©lations pouvant Ă©merger de l'analyse fine des mĂ©gadonnĂ©es, les opĂ©rateurs de l'Ă©nergie peuvent mieux apprĂ©hender les variations fines du gisement des Ă©nergies renouvelables et les croiser avec la demande rĂ©elle.

Exemples

  • En 2009 la Centre national pour la recherche atmosphĂ©rique (NCAR) de Boulder dans le Colorado a lancĂ© un tel systĂšme. Il est mi-2016 opĂ©rationnel dans huit États amĂ©ricains. Au sein de Xcel Energy (entreprise basĂ©e Ă  Denver, (Colorado) qui dispose de la premiĂšre capacitĂ© Ă©olienne des États-Unis), cette approche a amĂ©liorĂ© la prĂ©vision, assez pour que depuis 2009, les clients aient Ă©vitĂ© US $ 60 millions/an de dĂ©penses, et l’émission de plus d'un quart d'un million de tonnes CO2/an grĂące Ă  un moindre recours aux Ă©nergies fossiles[93] ;
  • En 2016, l’Allemagne a fait un pas important vers l’internet de l'Ă©nergie tel que proposĂ© par le prospectiviste Jeremy Rifkin en expĂ©rimentant un processus (EWeLiNE[94]) d’analyse automatique du big data Ă©nergĂ©tique et mĂ©tĂ©orologique.
    Contexte : Avec 45 000 mĂ©gawatts, la capacitĂ© Ă©olienne de l'Allemagne est la 3e au monde, derriĂšre la Chine et les États-Unis, et seule la Chine rivalise avec l’Allemagne en termes de capacitĂ© solaire. Un tiers de l'Ă©lectricitĂ© est en 2016 d’origine renouvelable et le gouvernement cible au 80 % du total avant 2050 et 35 % avant 2020[93]. Cela va demander de dĂ©velopper un « smartgrid » permettant une rĂ©partition et un stockage encore plus intelligent et rĂ©actif de l’énergie.
    L'expĂ©rimentation : En juin 2016, pour mieux adapter le rĂ©seau Ă©lectrique (rĂ©seau Ă©lectrique intelligent) au caractĂšre intermittent du solaire et de l'Ă©olien, ainsi qu’aux variations instantanĂ©es, quotidiennes et saisonniĂšres de la demande, et pour limiter l’appel aux Ă©nergies fossiles, l’Allemagne a lancĂ© un processus (baptisĂ© EWeLiNE) d’analyse automatique du big data.
EWeLiNE associe trois opĂ©rateurs (TSOs Amprion GmbH, TenneT TSO GmbH et 50 Hertz)[93]. Ils bĂ©nĂ©ficient de M€ (dĂ©boursĂ©s par le ministĂšre fĂ©dĂ©ral des affaires Ă©conomiques et de l'Ă©nergie)[93]. Des logiciels vont exploiter le big data des donnĂ©es mĂ©tĂ©o et des donnĂ©es d'intĂ©rĂȘt Ă©nergĂ©tique pour prĂ©voir avec une prĂ©cision croissante la capacitĂ© productive instantanĂ©e des ENR (car quand le vent augmente ou qu’un nuage passe au-dessus d'une ferme solaire, la production augmente ou chute localement et le rĂ©seau doit s’adapter). EWeLiNE doit amĂ©liorer la gestion anticipĂ©e et en temps rĂ©el de la production et de la consommation grĂące Ă  la prĂ©vision Ă©nergĂ©tico-mĂ©tĂ©orologique via un systĂšme « apprenant » de prĂ©vision statistiquement avancĂ©e de la force du vent (au niveau du moyeu d'une turbine) et de la puissance solaire (au niveau des modules photovoltaĂŻque).
Les grandes Ă©oliennes mesurent souvent elles-mĂȘmes en temps rĂ©el la vitesse du vent au niveau des turbines, et certains panneaux solaires intĂšgrent des capteurs d’intensitĂ© lumineuse[93]. EWeLiNE combine ces donnĂ©es avec les donnĂ©es mĂ©tĂ©o classiques (terrestre, radar et satellitale) et les transfĂšre dans des modĂšles informatiques sophistiquĂ©s (« systĂšmes apprenants ») pour mieux prĂ©dire la production d'Ă©lectricitĂ© durant les prochaines 48 heures (ou plus)[93]. L'Ă©quipe scientifique vĂ©rifie ces prĂ©visions de puissance, et les ordinateurs « apprennent » de leurs erreurs, permettant aux modĂšles prĂ©dictifs d’ĂȘtre de plus en plus prĂ©cis.
EWeLiNE a d’abord Ă©tĂ© testĂ© (en juin 2016) sur quelques rĂ©seaux de panneaux solaires et d'Ă©oliennes Ă©quipĂ©s de capteurs. À partir de juillet, les opĂ©rateurs vont peu Ă  peu Ă©tendre le systĂšme en se connectant Ă  un nombre croissant d’installations solaires et Ă©oliennes qui leur transmettront en temps rĂ©el leurs donnĂ©es pour ajuster la quantitĂ© d'Ă©nergie produite Ă  l’échelle du pays (l’objectif est de le faire en 2 ans)[93]. On s’approchera alors de ce que J Rifkin a nommĂ© l’internet de l’énergie, si ce n’est qu’il y intĂšgre aussi les usages domestiques et individuels (ce qui devrait ĂȘtre permis par la diffusion des compteurs intelligents et de systĂšmes intelligents et locaux ou mobiles de stockage de l’énergie).
Premiers retours : Les premiers rĂ©sultats allemands laissent penser que l’approche fonctionnera, car le travail des modĂ©lisateurs allemand avait dĂ©jĂ  permis de bonnes amĂ©liorations avant l’accĂšs Ă  ces donnĂ©es. EWeLiNE n’est pas une dĂ©clinaison ni une traduction du systems amĂ©ricain du NCAR ; les modĂšles mĂ©tĂ©orologiques et les algorithmes convertissant les prĂ©visions mĂ©tĂ©orologiques en prĂ©visions de puissance diffĂšrent[93]

Utilisation par le secteur privé

Dans la majoritĂ© des cas, les entreprises peuvent utiliser les donnĂ©es pour mieux connaitre leur marchĂ©. En effet les donnĂ©es collectĂ©es par les cartes de fidĂ©litĂ© et les historiques d’achat permettent de mieux comprendre le marchĂ© de maniĂšre gĂ©nĂ©rale, d’en faire une meilleure segmentation[95] . Les entreprises vont pouvoir proposer des articles qui correspondent aux envies du clients par le ciblage. Le meilleur exemple serait Amazon qui, grĂące au big data, a rĂ©ussi Ă  accroitre la pertinence de ses recommandations[96]. Le Big Data permet donc de dĂ©gager un schĂ©ma global aidant Ă  comprendre le marchĂ©. L’entreprise saura alors quels produits proposĂ©s ou sur quels produits il faut davantage accentuer la communication afin de les rendre plus attrayants[97]. Tout cela peut ĂȘtre crucial pour l’entreprise. Mais elles peuvent aussi utiliser les donnĂ©es dans un autre registre : amĂ©liorer leurs technologies. Par exemple Rolls-Royce met des capteurs dans les moteurs de leurs rĂ©acteurs afin de d’avoir de multiples informations pendant le vol[96]. Cet auteur explique qu’avant le boom du big data, les informations jugĂ©es superflues Ă©taient dĂ©truites par les ordinateurs mais maintenant elles sont collectĂ©es dans des serveurs centraux afin de crĂ©er des modĂšles permettant de prĂ©voir des pannes et/ou des dĂ©faillances. Elle a donc renforcĂ© la suretĂ© de ses rĂ©acteurs et a pu transformer ces donnĂ©es en profit.

Perspectives et Ă©volutions

L'un des principaux enjeux de productivité du big data dans son évolution va porter sur la logistique de l'information, c'est-à-dire sur la maniÚre de garantir que l'information pertinente arrive au bon endroit au bon moment. Il s'agit d'une approche micro-économique. Son efficacité dépendra ainsi de celle de la combinaison entre les approches micro- et macro-économique d'un problÚme.

Selon certaines sources, les donnĂ©es numĂ©riques crĂ©Ă©es dans le monde atteindraient 47 zettaoctets d'ici 2020[44] et 175 zettaoctets en 2035[44]. À titre de comparaison, Facebook gĂ©nĂ©rait environ 10 tĂ©raoctets de donnĂ©es par jour au dĂ©but 2013. Le dĂ©veloppement de l'hĂ©bergement massif de donnĂ©es semble avoir Ă©tĂ© accĂ©lĂ©rĂ© par plusieurs phĂ©nomĂšnes simultanĂ©ment : la pĂ©nurie de disques durs Ă  la suite des inondations en ThaĂŻlande en 2011, l'explosion du marchĂ© des supports mobiles (smartphones et tablettes notamment), etc. AjoutĂ© Ă  cela, la dĂ©mocratisation du cloud-computing de plus en plus proche, grĂące Ă  des outils comme Dropbox, amĂšne le big data au centre de la logistique de l'information.

Afin de pouvoir exploiter au maximum le big data, de nombreuses avancĂ©es doivent ĂȘtre faites, et ce en suivant trois axes.

Modélisation de données

Les méthodes de modélisation de données ainsi que les systÚmes de gestion de base de données relationnelles classiques ont été conçus pour des volumes de données trÚs inférieurs. La fouille de données a des caractéristiques fondamentalement différentes et les technologies actuelles ne permettent pas de les exploiter.

Dans le futur il faudra des modĂ©lisations de donnĂ©es et des langages de requĂȘtes permettant :

  • une reprĂ©sentation des donnĂ©es en accord avec les besoins de plusieurs disciplines scientifiques ;
  • de dĂ©crire des aspects spĂ©cifiques Ă  une discipline (modĂšles de mĂ©tadonnĂ©es) ;
  • de reprĂ©senter la provenance des donnĂ©es ;
  • de reprĂ©senter des informations contextuelles sur la donnĂ©e ;
  • de reprĂ©senter et supporter l’incertitude ;
  • de reprĂ©senter la qualitĂ© de la donnĂ©e[98] ;
  • de rĂ©aliser l'approximation d'un gros volume de donnĂ©es[99].

De trĂšs nombreux autres thĂšmes de recherche sont liĂ©s Ă  ce thĂšme, citons notamment : la rĂ©duction de modĂšle pour les EDP, l'acquisition comprimĂ©e en imagerie, l'Ă©tude de mĂ©thodes numĂ©riques d'ordre Ă©levé  ProbabilitĂ©s, statistiques, analyse numĂ©rique, Ă©quations aux dĂ©rivĂ©es partielles dĂ©terministes et stochastiques, approximation, calcul haute performance, algorithmique
 Une grande partie de la communautĂ© scientifique, notamment en mathĂ©matiques appliquĂ©es et en informatique, est concernĂ©e par ce thĂšme porteur.

Gestion de données

Le besoin de gĂ©rer des donnĂ©es extrĂȘmement volumineuses est flagrant et les technologies d’aujourd’hui ne permettent pas de le faire. Il faut repenser des concepts de base de la gestion de donnĂ©es qui ont Ă©tĂ© dĂ©terminĂ©s dans le passĂ©. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidĂ©rer le principe qui veut qu’une requĂȘte sur un SGBD fournisse une rĂ©ponse complĂšte et correcte sans tenir compte du temps ou des ressources nĂ©cessaires. En effet la dimension exploratoire de la fouille de donnĂ©es fait que les scientifiques ne savent pas nĂ©cessairement ce qu’ils cherchent. Il serait judicieux que le SGBD puisse donner des rĂ©ponses rapides et peu coĂ»teuses qui ne seraient qu’une approximation, mais qui permettraient de guider le scientifique dans sa recherche[98].

Dans le domaine des donnĂ©es clients, il existe Ă©galement de rĂ©els besoins d'exploitation de ces donnĂ©es, en raison notamment de la forte augmentation de leur volume des derniĂšres annĂ©es[100]. Le big data et les technologies associĂ©es permettent de rĂ©pondre Ă  diffĂ©rents enjeux tels que l'accĂ©lĂ©ration des temps d’analyse des donnĂ©es clients, la capacitĂ© Ă  analyser l’ensemble des donnĂ©es clients et non seulement un Ă©chantillon de celles-ci ou la rĂ©cupĂ©ration et la centralisation de nouvelles sources de donnĂ©es clients Ă  analyser afin d’identifier des sources de valeur pour l’entreprise.

Outils de gestion des données

Les outils utilisĂ©s au debut des annĂ©es 2010 ne sont pas en adĂ©quation avec les volumes de donnĂ©es engendrĂ©s dans l’exploration du big data. Il est nĂ©cessaire de concevoir des instruments permettant de mieux visualiser, analyser, et cataloguer les ensembles de donnĂ©es afin de permettre une optique de recherche guidĂ©e par la donnĂ©e[98]. La recherche en big data ne fait que commencer. La quantitĂ© de donnĂ©es Ă©volue beaucoup plus rapidement que nos connaissances sur ce domaine. Le site The Gov Lab prĂ©voit qu'il n y aura pas suffisamment de scientifiques du data. En 2018, les États-Unis auraient besoin de 140 000 Ă  190 000 scientifiques spĂ©cialisĂ©s en big data[86].

Gestion de l'entropie

Le dĂ©luge de donnĂ©es qui alimente le big data (et dont certaines sont illĂ©gales ou incontrĂŽlĂ©es) est souvent mĂ©taphoriquement comparĂ© Ă  la fois Ă  un flux continu de nourriture, de pĂ©trole ou d’énergie (qui alimente les entreprises du data mining et secondairement la sociĂ©tĂ© de l’information[101]) qui expose au risque d’infobĂ©sitĂ© et pourrait ĂȘtre comparĂ© Ă  l’équivalent d’une « pollution »[42] du cyberespace et de la noosphĂšre (mĂ©taphoriquement, le big data correspondrait pour partie Ă  une sorte de grande marĂ©e noire informationnelle, ou Ă  une eutrophisation diffuse mais croissante et continue du monde numĂ©rique pouvant conduire Ă  une dystrophisation, voire Ă  des dysfonctions au sein des Ă©cosystĂšmes numĂ©riques)[102].

Face Ă  cette « entropie informationnelle » quelques rĂ©ponses de type nĂ©guentropique sont nĂ©es (WikipĂ©dia en fait partie en triant et restructurant de l’information dĂ©jĂ  publiĂ©e).

D’autres rĂ©ponses ont Ă©tĂ© la crĂ©ation de moteurs de recherche et d’outils d’analyse sĂ©mantique et de fouille de flots de donnĂ©es, de plus en plus puissants et rapides.

NĂ©anmoins, l'analyse du big data tend elle-mĂȘme Ă  engendrer du big data, avec un besoin de stockage et de serveurs qui semble exponentiel.

Bilan énergétique

ParallĂšlement Ă  la croissance de la masse et du flux de donnĂ©es, une Ă©nergie croissante est dĂ©pensĂ©e d'une part dans la course aux outils de datamining, au chiffrement/dĂ©chiffrement et aux outils analytiques et d’authentification, et d'autre part dans la construction de fermes de serveurs qui doivent ĂȘtre refroidis ; au dĂ©triment du bilan Ă©nergĂ©tique et Ă©lectrique du Web.

Idées reçues

En 2010, les jeux de donnĂ©es produites par l’homme sont de plus en plus complĂ©tĂ©s par d'autres donnĂ©es, massivement acquises de maniĂšre passive et automatique par un nombre croissant de capteurs Ă©lectroniques et sous des formes de plus en plus interopĂ©rables et comprĂ©hensibles par les ordinateurs. Le volume de donnĂ©es stockĂ©es dans le monde fait plus que doubler tous les deux ans, et en migrant de plus en plus sur internet, les uns voient dans le big data intelligemment utilisĂ© une source d’information qui permettrait de lutter contre la pauvretĂ©, la criminalitĂ© ou la pollution. Et Ă  l'autre extrĂ©mitĂ© du spectre des avis, d'autres, souvent dĂ©fenseurs de la confidentialitĂ© de la vie privĂ©e, en ont une vision plus sombre, craignant ou affirmant que le big data est plutĂŽt un Big Brother se prĂ©sentant dans de « nouveaux habits »[103], « dans des vĂȘtements de l’entreprise »[104].

En 2011 Ă  l'occasion d'un bilan sur 10 ans d'Internet pour la sociĂ©tĂ©, Danah Boyd (de Microsoft Research) et Kate Crawford (University of New South Wales) dĂ©nonçaient de maniĂšre provocatrice six problĂšmes liĂ©s Ă  des idĂ©es reçues sur le big data[105] : « L’automatisation de la recherche change la dĂ©finition du savoir (
) Les revendications d’objectivitĂ© et d’exactitude sont trompeuses (
) De plus grosses donnĂ©es ne sont pas toujours de meilleures donnĂ©es (
) Toutes les donnĂ©es ne sont pas Ă©quivalentes (
) Accessible ne signifie pas Ă©thique (
) L’accĂšs limitĂ© aux big data crĂ©e de nouvelles fractures numĂ©riques »[42] entre les chercheurs ayant accĂšs aux donnĂ©es de l'intĂ©rieur ou en payant ce droit d'accĂšs[42].

Risques et problĂšmes

Plusieurs types de risques d'atteinte à la vie privée et aux droits fondamentaux sont cités par la littérature :

  • DĂ©shumanisation : dans ce que Bruce Schneier dĂ©nomme « l’ñge d’or de la surveillance », la plupart des individus peuvent se sentir dĂ©shumanisĂ©s et ils ne peuvent plus protĂ©ger les donnĂ©es personnelles ou non qui les concernent, et qui sont collectĂ©es, analysĂ©es et vendues Ă  leur insu. Alors qu'il devient difficile de se passer de carte bleue, de smartphone ou de consultation de l'internet, ils peuvent avoir le sentiment de ne pas pouvoir Ă©chapper Ă  une surveillance constante oĂč Ă  des pressions visant Ă  les faire consommer, voter, etc.
  • Faille de sĂ©curitĂ© informatique : dans un monde de plus en plus interconnectĂ© et liĂ© Ă  l’Internet, la sĂ©curitĂ© en ligne devient cruciale, pour la protection de la vie privĂ©e, mais aussi pour l'Ă©conomie (ex. : en cas de problĂšme grave, des risques existent de perte de confiance, concernant la sĂ©curitĂ© des processus d’achat en ligne par exemple ; ils pourraient avoir des consĂ©quences Ă©conomiques importantes).
  • « Vassalisation de la recherche scientifique par des sociĂ©tĂ©s commerciales et leurs services de marketing »[42].
  • ApophĂ©nie (dĂ©ductions indues)[42] : les biais d’accĂšs et d’interprĂ©tation sont nombreux (« un corpus n’est pas plus scientifique ou objectif parce que l’on est en mesure d’aspirer toutes les donnĂ©es d’un site. D’autant qu’il existe de nombreux biais (techniques avec les API, mais aussi organisationnels) dans l’accĂšs mĂȘme Ă  ces donnĂ©es qu’on aurait tort de considĂ©rer comme totales. Cet accĂšs ne repose en effet que sur le bon vouloir de sociĂ©tĂ©s commerciales et sur les moyens financiers dont disposent chercheurs et universitĂ©s) »[42] ;
    De plus, un biais liĂ© au genre existe : la grande majoritĂ© des chercheurs experts en informatique sont aujourd’hui des hommes, or des historiennes fĂ©ministes et les philosophes des sciences ont montrĂ© que le sexe de celui qui pose les questions dĂ©termine souvent les questions qui seront posĂ©es[106].
  • MĂ©sinterprĂ©tation de certaines donnĂ©es liĂ©es Ă  l'altĂ©ritĂ©, avec d'Ă©ventuelles consĂ©quences sociopsychologiques, par exemple et de mauvaise comprĂ©hension ou interprĂ©tation de l’autre (« l’autre n’est pas une donnĂ©e » rappelle D. Pucheu[107]).
    Un autre risque est celui d'une « rarĂ©faction des occasions d’exposition des individus Ă  des choses qui n’auraient pas Ă©tĂ© prĂ©-vues pour eux, et donc un assĂšchement de l’espace public (comme espace de dĂ©libĂ©ration, de formation de projets non rabattus sur la seule concurrence des intĂ©rĂȘts individuels), ces choses non prĂ©-vues, Ă©tant prĂ©cisĂ©ment constitutives du commun, ou de l’espace public »[108].
  • Exacerbation de la fracture numĂ©rique, car les outils de data mining offrent Ă  quelques entreprises un accĂšs croissant et presque instantanĂ© Ă  des milliards de donnĂ©es et de documents numĂ©risĂ©s. Pour ceux qui savent utiliser ces donnĂ©es, et avec certaines limites, elles offrent aussi une certaine capacitĂ© Ă  produire, trier ou distinguer des informations jugĂ©es stratĂ©giques, permettant alors aussi de retenir ou au contraire de libĂ©rer avant d’autres certaines informations stratĂ©giques[109]. Cet accĂšs trĂšs privilĂ©giĂ© et peu transparent Ă  l'information peut favoriser des situations de conflits d'intĂ©rĂȘt ou des dĂ©lits d'initiĂ©s. Il existe un risque d'inĂ©galitĂ©s croissante face aux donnĂ©es et au pouvoir que l'on a sur elles : Manovich distingue ainsi 3 catĂ©gories d’acteurs, fonciĂšrement inĂ©gaux face Ă  la donnĂ©e : « ceux qui crĂ©ent les donnĂ©es (que ce soit consciemment ou en laissant des traces numĂ©riques), ceux qui ont les moyens de les recueillir, et ceux qui ont la compĂ©tence de les analyser »(2011) .
    Ces derniers sont en faible nombre, mais trĂšs privilĂ©giĂ©s (ils sont souvent employĂ©s par les entreprises et autres entitĂ©s du big data et ont donc le meilleur accĂšs Ă  la donnĂ©e; ils contribuent Ă  produire ou orienter les rĂšgles qui vont les encadrer et cadrer l’exploitation des big data. Des inĂ©galitĂ©s institutionnelles sont a priori inĂ©luctables mais elles peuvent ĂȘtre minimisĂ©es et devraient au moins ĂȘtre Ă©tudiĂ©es, car elles orientent les donnĂ©es et les types de recherches et applications qui en dĂ©couleront.
  • Monopole exclusif ou commercial de certains jeux de mĂ©gadonnĂ©es collectĂ©es par quelques grandes entreprises (GAFA) ou par les outils publics ou secrets de grands États et leurs services de surveillance et collecte de donnĂ©es mondialisĂ©s(ex. : PRISM pour la NSA) visant Ă  « capter le rĂ©el pour l'influencer »[20]) ; une Ă©norme quantitĂ© de donnĂ©es est discrĂštement (et la plupart du temps lĂ©galement) collectĂ©e par des entreprises spĂ©cialisĂ©es ou des agences d’État ou de renseignement, dont les discussions et Ă©changes, les comportements d’achat et les centres d’intĂ©rĂȘt sur l’Internet de tous les groupes et d’individus. Ces donnĂ©es sont stockĂ©es, et parfois piratĂ©es (Ainsi, en 2003, lors d'une recherche de failles de sĂ©curitĂ© la sociĂ©tĂ© Acxiom, l'un des principaux courtiers en donnĂ©es s'est rendu compte que 1,6 milliard d'enregistrements de consommateurs avaient Ă©tĂ© piratĂ©s via 137 attaques informatiques faites de janvier Ă  juillet 2003 ; les informations volĂ©es incluaient des noms, adresses et des adresses e-mail de plusieurs millions d'AmĂ©ricains[110] - [111] - [112] - [113]). Ces donnĂ©es sont ensuite plus ou moins mises Ă  jour, et Ă©ventuellement louĂ©es ou vendues pour le marketing et la publicitĂ© ciblĂ©e, des Ă©tudes scientifiques des organismes de sondage, des groupes d’influence ou des partis politiques (qui peuvent ainsi plus facilement contacter leurs Ă©lecteurs potentiels), etc. Les personnes dont les donnĂ©es circulent ainsi n’en sont gĂ©nĂ©ralement pas informĂ©es, n’ont pas donnĂ© de consentement Ă©clairĂ© et peuvent difficilement vĂ©rifier ces donnĂ©es ou surtout les retirer des bases de donnĂ©es qui les conservent pour une durĂ©e potentiellement illimitĂ©e. Des risques de production d’erreur et de mauvais usages existent (dans le domaine des assurances et prĂȘts bancaires par exemple). Jusqu'Ă  80 % des donnĂ©es personnelles mondiales seraient dĂ©tenues par quatre grands acteurs amĂ©ricains du Web que sont les GAFA[114].
  • DĂ©rives Ă©thiques, dĂ©jĂ  constatĂ©es dans la partie grise ou sombre[115] de l’internet, y compris dans les grands rĂ©seaux sociaux (dont Facebook et Twitter, qui collectent un grand nombre de donnĂ©es et informations sur leurs utilisateurs et les rĂ©seaux dans lesquels ils s’inscrivent[116] - [117]) ; D’autres invitent Ă  l’adoption de bonnes pratiques[118] et de rĂšgles Ă©thiques plus strictes pour le data mining[119] et la gestion de ces mĂ©gadonnĂ©es[120] - [121].
    Notamment depuis les rĂ©vĂ©lations du lanceur d'alerte amĂ©ricain Edward Snowden[122], certains s’inquiĂštent de voir outre une surveillance de plus en plus invasive (voire pervasive[123]) de nos activitĂ©s par les fournisseurs d’accĂšs Ă  Internet[124], puis fleurir des lĂ©gislations facilitant (sous prĂ©texte de facilitĂ©s Ă©conomiques et/ou de sĂ©curitĂ© nationale) l’usage d’outils de traçage (via les cartes de paiement, cartes de fidĂ©litĂ©, cartes de santĂ©, cartes de transport, cartes de pointage, les systĂšmes de videosurveillance, certains smartgrids ou outils domotiques, certains objets connectĂ©s gĂ©olocalisant leur propriĂ©taire, etc.). Certaines de ces lĂ©gislations facilitent ou lĂ©gitiment explicitement les Ă©coutes Ă©lectroniques (Ă©coute et analyse de conversations tĂ©lĂ©phoniques ; interception et analyse d’emails et de rĂ©seaux) et le suivi gĂ©nĂ©ral des activitĂ©s sur le Net, ce qui leur semble ĂȘtre un contexte pouvant prĂ©parer une surveillance orweillienne gĂ©nĂ©ralisĂ©e des individus. Ces auteurs dĂ©noncent l’apparition de processus et d’un contexte de plus en plus orweillien[23] intrinsĂšquement difficiles Ă  contrĂŽler, et insistent sur l’importance de la protection de la vie privĂ©e[125], « mĂȘme quand on n'a rien Ă  cacher »[126] - [127] ou (comme B. Schneier en 2008[128] ou Culnan & Williams en 2009[129]) rappellent que les notions de sĂ©curitĂ© et de protection de la vie privĂ©e et d’autonomie de l’individu ne sont pas opposĂ©es.
  • Influence aux groupes de pressions des industriels qui participent au dĂ©veloppement des techniques de captation et d'usage de multiples donnĂ©es en utilisant des concepts de ville intelligente et de ville sĂ»re plus socialement acceptĂ©s.
  • CybersĂ©curitĂ© : Les donnĂ©es d'une entreprise comptent parmi les actifs plus importants d'une entreprise, explique Lambert Sonna Momo en 2014[130]. Depuis, la question des donnĂ©es privĂ©es de tout Ă  chacun, stockĂ©es de maniĂšre massive, fait rĂ©guliĂšrement l'objet de dĂ©bats sur les sujets d'Ă©thique et de respect de la sphĂšre privĂ©e.

Critiques

La Commissaire europĂ©enne Ă  la Concurrence, Margrethe Vestager, a considĂ©rĂ© auprĂšs du Wall Street Journal que les grandes sociĂ©tĂ©s pouvaient utiliser des masses gigantesques de donnĂ©es d’utilisateurs pour entraver la concurrence[131].

Dans un rapport du CIB (ComitĂ© International de BioĂ©thique) sur les mĂ©gadonnĂ©es et la santĂ©, publiĂ© en 2015, il mentionne que « L’enthousiasme suscitĂ© par le phĂ©nomĂšne des mĂ©gadonnĂ©es risque d’entraĂźner des surĂ©stimations et des prĂ©visions irrĂ©alistes »[132]. Cela peut « mener Ă  un dĂ©sĂ©quilibre des prioritĂ©s en termes de politiques de santĂ©, notamment dans les pays oĂč l'accĂšs Ă  ces services essentiels n'est pas garanti ». En conclusion de la proposition 45, le CIB prĂ©cise qu'« Il est par consĂ©quent essentiel de gĂ©rer avec bon sens l’optimisme suscitĂ© par ce phĂ©nomĂšne ».

Gouvernance et mégadonnées

La gouvernance des donnĂ©es peut se faire au niveau des entreprises, dans l'objectif de gĂ©rer efficacement leurs donnĂ©es; et aussi des Ă©tats, pour rĂ©guler le bon usage des donnĂ©es. Elle nĂ©cessite un dĂ©bat citoyen constant[133] ainsi que des modes de gouvernance et de surveillance adaptĂ©s[134] car des États, des groupes ou des entreprises ayant des accĂšs privilĂ©giĂ©s au big data peuvent en extraire trĂšs rapidement un grand nombre de « donnĂ©es personnelles diffuses » qui, par croisement et analyse, permettent un profilage de plus en plus prĂ©cis, intrusif et parfois illĂ©gal (faisant fi de la protection de la vie privĂ©e) des individus, des groupes, des entreprises, et en particulier de leur statut social, culturel, religieux ou professionnel (exemple du programme PRISM de la NSA), de leurs activitĂ©s personnelles, leurs habitudes de dĂ©placement, d’achat et de consommation, ou encore de leur santĂ©. Cette question renvoie directement Ă  la DĂ©claration Universelle des droits de l'Homme qui indique, dans l'article 12, que « Nul ne sera l'objet d'immixtions arbitraires dans sa vie privĂ©e, sa famille, son domicile ou sa correspondance, ni d'atteintes Ă  son honneur et Ă  sa rĂ©putation. Toute personne a droit Ă  la protection de la loi contre de telles immixtions ou de telles atteintes »[135].« La montĂ©e des big data amĂšne aussi de grandes responsabilitĂ©s »[42]. En matiĂšre de santĂ© publique notamment, des enjeux Ă©thiques forts existent[136].

Sur la scĂšne europĂ©enne, un nouveau rĂšglement a Ă©tĂ© mis en place dans le courant de l'annĂ©e 2015 : le RGPD ou GDPR (General Data Protection Regulation). Il s'agit d'un rĂšglement qui modifie le cadre juridique relatif Ă  la protection des donnĂ©es personnelles au sein de l’union europĂ©enne. Le RGPD rappelle que toute personne physique devrait avoir le contrĂŽle de donnĂ©es Ă  caractĂšre personnel la concernant. Toute opĂ©ration Ă©conomique se doit, de plus, d'ĂȘtre transparente, le rĂšglement en assure la sĂ©curitĂ© juridique (article 13). Enfin la protection des donnĂ©es personnelles est garantie par ce nouveau rĂšglement (article 17)[137].

Big data temps réel

Les plateformes big data sont conçues pour traiter une quantitĂ© de donnĂ©es massive, en revanche elles sont trĂšs rarement conçues pour traiter ces donnĂ©es en temps rĂ©el. Les nouveaux usages et les nouvelles technologies engendrent des donnĂ©es au quotidien et sans interruption, il est donc nĂ©cessaire de faire Ă©voluer ces plateformes pour traiter les donnĂ©es temps rĂ©el afin de rĂ©pondre aux exigences mĂ©tiers qui demandent d’aller vers plus de rĂ©activitĂ© et de personnalisation. C’est la raison pour laquelle les architectures lambda et kappa ont vu le jour. Ces architectures permettent de prendre en compte les flux de donnĂ©es temps rĂ©el pour rĂ©pondre Ă  ces nouvelles exigences[138].

Notes et références

  1. Prononciation en anglais standard retranscrite selon la norme API.
  2. [PDF] Commission générale de terminologie et de néologie, Journal officiel de la République française du [lire en ligne].
  3. « mégadonnées », Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le ).
  4. (en) Andrea De Mauro, Marco Greco et Michele Grimaldi, « A formal definition of Big Data based on its essential features », Library Review, vol. 65, no 3,‎ , p. 122–135 (ISSN 0024-2535, DOI 10.1108/LR-06-2015-0061, lire en ligne, consultĂ© le )
  5. « ConfĂ©rence : voyage au cƓur du Big Data », sur CEA/MĂ©diathĂšque, (consultĂ© le )
  6. (en) Cukier, K., & Mayer-Schoenberger, V. (2013). Rise of Big Data: How it's Changing the Way We Think about the World, The. Foreign Aff., 92, 28.
  7. « Qu’est-ce que le Big Data ? », sur lebigdata.ma
  8. Les médias dans la moulinette du « big data », 6 janvier 2014, consulté 12 janvier 2014.
  9. Michel Cartier, « Le "Big Data" », sur 21e siÚcle
  10. (en)CSAIL Researchers to Teach MIT's First Online Professional Course on Big Data, Tackling the Challenges of Big Data, janvier 2014, consulté 2014-01-12
  11. Création au CollÚge de France d'une Chaire « Sciences des données » en 2018., college-de-france.fr.
  12. [PDF]Gouvernement français (2012) - Investissements d’avenir – Fonds national pour la sociĂ©tĂ© numĂ©rique, Appel Ă  projets no 3 - Big Data.
  13. Big Data Paris, conférence-exposition, 20-21 mars 2012.
  14. (en) « The AI revolution in science », Science | AAAS,‎ (lire en ligne, consultĂ© le )
  15. Non accessible le 31 mars 2019, sur ibm.com
  16. Watters, Audrey, Visualize Big Data with Flowing Media, ReadWriteWeb. 15 avril 2010
  17. (en) The World’s Technological Capacity to Store, Communicate, and Compute Information tracking the global capacity of 60 analog and digital technologies during the period from 1986 to 2007
  18. (en) Gil Press, « A Very Short History Of Big Data », Forbes,‎ (lire en ligne, consultĂ© le )
  19. Gil Press (2013) « une trÚs courte histoire du big data » Forbes.com, daté du 5 mai 2013,
  20. Tréguier, V. (2014). « Mondes de données et imaginaires: vers un monde cybernétique » et Résumé ; Library and information sciences. 2014, [PDF], 53 p.
  21. Borkar, V. R., Carey, M. J., & Li, C. (2012). Big data platforms: what's next?. XRDS: Crossroads, The ACM Magazine for Students, 19(1), 44-49
  22. (en) Che, D., Safran, M., & Peng, Z. (2013, January). From big data to big data mining: challenges, issues, and opportunities. In Database Systems for Advanced Applications (p. 1-15). Springer Berlin Heidelberg
  23. Larsen, K. (2009). Orwellian state of security. Infosecurity, 6(6), 16-19 (résumé)
  24. (en) Sanders, E. (2001). Firms renew assault on privacy rules. Los Angeles Times C, 1.
  25. Boeth R (1970). The Assault on Privacy: Snoops, Bugs, Wiretaps, Dossiers, Data Bann Banks, and Specters of 1984. Newsweek, Incorporated.
  26. Miller, A. R. (1971). The assault on privacy: computers, data banks, and dossiers. University of Michigan Press.
  27. Arthur Miller (1975) "Assault on privacy" ; Psychiatric Opinion ; Vol 12(1), janvier 1975, 6-14.
  28. (en)Christie, G. C. (1971). The Right to Privacy and the Freedom to Know: A Comment on Professor Miller's" The Assault on Privacy". University of Pennsylvania Law Review, 970-991.
  29. (en) Froomkin, A. M. (2000). The death of privacy ? ; Stanford Law Review, 1461-1543.
  30. (en) Ernst M.L & Schwartz, A.U (1962) Privacy: The right to be let alone. New York: Macmillan.
  31. Askland, A. (2006). What, Me Worry? The Multi-Front Assault on Privacy. St. Louis University Public Law Review, 25(33), et résumé
  32. Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493 (Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493. résumé]).
  33. Warren, S. D., & Brandeis, L. D. (1890). The right to privacy. Harvard law review, 193-220.
  34. « Big Data Paris - les 11 & 12 mars prochains au Palais des CongrÚs », sur Big Data Paris 2019 (consulté le ).
  35. (en) Michael Minelli, Michele Chambers et Ambiga Dhiraj, Big Data, Big Analytics : Emerging Business Intelligence and Analytic Trends for Today's Businesses, Wiley, (ISBN 978-1-118-14760-3)
  36. (en) « Application Delivery Strategies » [PDF], sur blogs.gartner.com,
  37. « Les 3 V du Big Data : Volume, Vitesse et VariĂ©tĂ© », JDN,‎ (lire en ligne, consultĂ© le )
  38. (en-US) « Big Data Analytics | IBM Analytics », sur 01.ibm.com (consulté le )
  39. « LumiĂšre sur
 les 6V du Big Data », sur e-marketing.fr (consultĂ© le )
  40. « Le Big data et la rÚgle des 5V », sur blogrecrutement.bpce.fr (consulté le )
  41. (en) Manovich L (2011) ‘Trending: The Promises and the Challenges of Big Social Data’, Debates in the Digital Humanities, ed M.K.Gold. The University of Minnesota Press, Minneapolis, MN.[15 juillet 2011].
  42. Big data : la nĂ©cessitĂ© d’un dĂ©bat (traduction collaborative d’un essai de Danah boyd et Kate Crawford prĂ©sentant “Six provocations au sujet du phĂ©nomĂšne des big data”, prĂ©sentĂ© lors du Symposium sur les dynamiques de l’internet et de la sociĂ©tĂ© : “Une dĂ©cennie avec Internet”, organisĂ© par l’Oxford Internet Institute, le 21 septembre 2011), FING, Internet.Actu.Net
  43. « Étude IDC-EMC, « Extracting value from chaos » », sponsorisĂ©e par EMC Gartner, citĂ©e par Delphine Cuny sous le titre « "Big data" : la nouvelle rĂ©volution », Virginia Rometty, La tribune, no 42, 29 mars au 4 avril 2013, p. 4
  44. « Infographie: Le big bang du big data », sur Statista Infographies (consulté le )
  45. « The Big Data rĂ©volution », Le journal, CNRS, no 28,‎ (lire en ligne).
  46. (en-US) Janet Wiener et Nathan Bronson, « Facebook’s Top Open Data Problems », sur Facebook Research, (consultĂ© le )
  47. (en) Shaun de Witt, Richard Sinclair, Andrew Sansum et Michael Wilson, « Managing Large Data Volumes from Scientific Facilities », ERCIM News,‎ (lire en ligne)
  48. « Big data : du concept Ă  la mise en Ɠuvre. Premiers bilans. », sur blog.dataraxy.com, (consultĂ© le )
  49. (en) Lee Gomes, « Data Analysis Is Creating New Business Opportunities », MIT Technology Review,‎ (lire en ligne, consultĂ© le )
  50. Pierre Brunelle, Déchiffrer le big data, Simplement : Acquérir les outils pour agir, de la réflexion à l'usage. (French Edition), Sceaux, Pierre Brunelle, , 129 p. (ISBN 978-1-5394-0933-5), p. 12
  51. (en-US) « IBM Understanding Big Data 2017/12/13 15:54:47 », sur www14.software.ibm.com, (consulté le )
  52. http://www.afdit.fr/media/pdf/27%20sept%202013/AFDIT%20BIG%20DATA%20Pierre%20Delort.pdf#13
  53. (en-US) « le Blog ANDSI » DSI Big Data », sur andsi.fr (consulté le )
  54. Pierre Delort, « Big Data car Low-Density Data ? La faible densitĂ© en information comme facteur discriminant », lesechos.fr,‎ (lire en ligne, consultĂ© le )
  55. Delort, Le Big Data, Paris, Presses Universitaires de France, , 128 p. (ISBN 978-2-13-065211-3, lire en ligne)
  56. http://www.ujf-grenoble.fr/recherche/college-des-ecoles-doctorales/les-formations-proposees/du-calcul-parallele-au-massivement-parallele--1442974.htm?RH=UJF
  57. http://www.oracle.com/technetwork/topics/entarch/articles/oea-big-data-guide-1522052.pdf
  58. Thierry LĂ©vy-AbĂ©gnoli, « Explosion des volumes de donnĂ©es : de nouvelles architectures s’imposent », ZDNet France,‎ (lire en ligne, consultĂ© le )
  59. http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf
  60. « Conception et optimisation du Mobile Cloud Computing avec des plateformes virtuelles en réseau », sur lebigdata.ma,
  61. http://www.cs.ucsb.edu/~sudipto/edbt2011/CloudTutorialPart1.pptx
  62. https://www.hpc-lr.univ-montp2.fr/
  63. « Les supercalculateurs de Météo France », sur meteofrance.fr (consulté le )
  64. Alain Beuraud, « Le calcul intensif temps rĂ©el, un outil dĂ©cisif pour la performance d’un service mĂ©tĂ©orologique », sur https://jcad2019.sciencesconf.org
  65. (en) Michel Sumbul, « HDFS », sur http://whatsbigdata.be/hdfs, (consulté le )
  66. Voir Data virtualization (en).
  67. « Le Big Data dans la campagne présidentielle US », sur 123opendata.com (consulté le )
  68. Pierre Delort, « Big Data : un ADN utilisateur sĂ©quençable pour moins de 1000 $ », lesechos.fr,‎ (lire en ligne, consultĂ© le )
  69. « La sĂ©curitĂ© se met rĂ©solument au «Big Data» », LeMagIT,‎ (lire en ligne, consultĂ© le )
  70. (en-US) « Big data : l’expĂ©rience client ultime ? », Tech Page One,‎ (lire en ligne, consultĂ© le )
  71. (en) « LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public. », CERN-Brochure-2010-006-Eng. LHC Brochure, English version., CERN (consulté le )
  72. (en) « LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers », CERN-Brochure-2008-001-Eng. LHC Guide, English version., CERN (consulté le )
  73. (en) Geoff Brumfiel, « High-energy physics: Down the petabyte highway », Nature, vol. 469,‎ , p. 282–83 (DOI 10.1038/469282a, lire en ligne).
  74. Data, data everywhere Information has gone from scarce to superabundant. That brings huge new benefits, says Kenneth Cukier (interviewed here)—but also big headaches, The Economist, publiĂ© 25 fĂ©vrier 2010
  75. Delort Pierre (2014) ICCP Technology Foresight Forum "Harnessing data as a new source of growth: Big data analytics and policies, en ligne sur le site de l'OCDE, mis Ă  jour 21 juillet 2014, PDF, 14 p
  76. Delort Pierre (2012), Big data, Association Nationale des DSI, PDF 12p
  77. (en) « NASA Goddard Introduces the NASA Center for Climate Simulation », sur nasa.gov (consulté le )
  78. Acclimatise (2017) Data philanthropy will drive climate resilient development ; Acclimatise News 27 novembre 2017 Development, Earth Observation & Climate Data
  79. Kirkpatrick, R. (2011). Data philanthropy: Public & private sector data Sharing for global resilience. UN Global Pulse, 16, 2011.
  80. Pawelke, A., & Tatevossian, A. R. (2013). Data philanthropy: Where are we now. United Nations Global Pulse Blog.
  81. Kshetri, N. (2014). The emerging role of Big Data in key development issues: Opportunities, challenges, and concerns. Big Data & Society, 1(2), 2053951714564227.
  82. (en) Taylor L (2016). The ethics of big data as a public good: which public ? Whose good ?. Phil. Trans. R. Soc. A, 374(2083), 2016012 rĂ©sumĂ© ; l'un des 15 thĂšmes traitĂ©s par ‘The ethical impact of data science’ (2016).
  83. « Election américaine: «Big data», l'arme secrÚte d'Obama », sur 20minutes.fr (consulté le )
  84. « Le pouvoir du "Big data" : Obama premier Président élu grùce à sa maßtrise de traitement de données ? », sur Atlantico.fr (consulté le )
  85. « Dossier Big data (2/5) Barack Obama, premier président big data », sur InformatiqueNews.fr, (consulté le )
  86. The GovLab Index: The Data Universe, sur thegovlab.org, consulté le 31 mars 2019.
  87. (en) « Government IT News, Analysis, & Advice - InformationWeek », sur InformationWeek (consulté le ).
  88. 2012 Energy Summit sur le site de l'État de l'Utah
  89. http://www.innovation2030.org/fr/
  90. (en) « Data, data everywhere », The Economist,‎ (lire en ligne, consultĂ© le )
  91. Non trouvé le 31 mars 2019, sur bayesia.com
  92. (en) « When the Art Is Watching You », sur Wall Street Journal,
  93. Schiermeier, Quirin (2016) Germany enlists machine learning to boost renewables revolution ; Grids struggle to cope with erratic nature of wind and solar power, 13 juillet 2016.
  94. Development of innovative weather and power forecast models for the grid integration of weather dependent energy sources, EWeLiNE, consulté 2016-07-14
  95. AurĂ©lie Dudezert, « Big Data : Mise en perspective et enjeux pour les entreprises », IngĂ©nierie des SystĂšmes d’Information,‎ (lire en ligne)
  96. Viktor Mayer-Schönberger, « La rĂ©volution Big Data », Politique Ă©trangĂšre,‎ (lire en ligne)
  97. (en) Russom, Philip, « TDWI BEST PRACTICES REPORT Introduction to Big Data Analytics », TDWI Research,‎ (lire en ligne)
  98. http://ercim-news.ercim.eu/images/stories/EN89/EN89-web.pdf.
  99. (en) Christian Gout, Zoé Lambert et Dominique Apprato, Data approximation : mathematical modelling and numerical simulations, Paris, EDP Sciences, , 168 p. (ISBN 978-2-7598-2367-3)
  100. Infographie - l’exploitation des donnĂ©es clients Ă  l’ùre du Big Data, blog MARKESS International
  101. M. Hilbert, Big data for development: From information-to knowledge societies. SSRN 2205145, 2013.
  102. Bruce Schneier on the Hidden Battles to Collect Your Data and Control Your World et partie 2 et transcriptions écrites (en anglais), Democracy Now » (consulté 8 mai 2015).
  103. Webb, M., & Caron, C. (2015). Les nouveaux habits de Big Brother. Relations, (776), 14-17.
  104. (en) The Age of Big Data, article de STEVE LOHRFEB. Publié le 11, 2012 par le New-York Times
  105. (en) Danah Boyd et Kate Crawford, « CRITICAL QUESTIONS FOR BIG DATA », Information, Communication & Society, vol. 15, no 5,‎ , p. 662–679 (lire en ligne [PDF])
  106. Harding, S. (2010) « Feminism, science and the anti-Enlightenment critiques », in Women, knowledge and reality: explorations in feminist philosophy, eds A. Garry and M. Pearsall, Boston: Unwin Hyman, 298–320.
  107. Pucheu David, « L'altérité à l'épreuve de l'ubiquité informationnelle », HermÚs, La Revue 1/2014 (no 68), p. 115-122 Lien vers Cairn Info
  108. Antoinette Rouvroy. (2014). "Des donnĂ©es sans personne: le fĂ©tichisme de la donnĂ©e Ă  caractĂšre personnel Ă  l'Ă©preuve de l'idĂ©ologie des big data" Contribution en marge de l'Étude annuelle du Conseil d'État. Le numĂ©rique et les droits et libertĂ©s fondamentaux. (rĂ©sumĂ©)
  109. Schneier, B. (2011). Secrets and lies: digital security in a networked world. John Wiley & Sons
  110. (en) « Acxiom Hacker Gets Prison Sentence », DMN,‎ (lire en ligne, consultĂ© le )
  111. Appeals court: Stiff prison sentence in Acxiom data theft case stands ; Snipermail owner Scott Levine was sentenced to eight years in prison, consulté 2015-05-08
  112. en anglais : largest ever invasion and theft of personal data
  113. (en) John Leyden, « Acxiom database hacker jailed for 8 years », The Register,‎ (lire en ligne, consultĂ© le )
  114. reportage diffusé par Canal+ « Big Data : les nouveaux devins ».
  115. Morozov, E. (2012). The net delusion: The dark side of Internet freedom ; What Comes After Internet Utopia?. PublicAffairs, juin 2012
  116. Raynes-Goldie, K. (2010). Aliases, creeping, and wall cleaning: Understanding privacy in the age of Facebook. First Monday, 15(1).
  117. Hull, G., Lipford, H. R., & Latulipe, C. (2011). Contextual gaps: Privacy issues on Facebook. Ethics and information technology, 13(4), 289-302
  118. What Big Data Needs
  119. Ethical issues in data mining
  120. Ethics of Big Data.
  121. Ethical Questions around Big Data
  122. Jean-Paul DelĂ©age, « Avec Edward Snowden, l'homme sorti de l'ombre qui voulait Ă©clairer le monde ! », Écologie & politique 1/2014 (No 48), p. 5-12 URL : http://www.cairn.info/revue-ecologie-et-politique-2014-1-page-5.htm. ; DOI : 10.3917/ecopo.048.0005
  123. Michael, M. G., & Michael, K. (2009). Uberveillance: microchipping people and the assault on privacy. Faculty of Informatics-Papers, 711
  124. Ohm, P. (2009). The rise and fall of invasive ISP surveillance. University of Illinois Law Review, 30 aout 2008
  125. Tene, O., & Polonetsky, J. (2012). « Big data for all: Privacy and user control in the age of analytics”. Nw. J. Tech. & Intell. Prop., 11, xxvii
  126. Solove, D. J. (2011). Why privacy matters even if you have ‘nothing to hide’. Chronicle of Higher Education, 15
  127. Solove, D. J. (2007). ['http://scholarship.law.gwu.edu/cgi/viewcontent.cgi?article=1159&context=faculty_publications I've Got Nothing to Hide' and Other Misunderstandings of Privacy]. San Diego law review, 44, 745.
  128. Schneier, B (2008). What our top spy doesn’t get: Security and privacy aren’t opposites. Wired. com.
  129. Culnan, M. J., & Williams, C. C. (2009). How ethics can enhance organizational privacy: lessons from the choicepoint and TJX data breaches. Mis Quarterly, 673-687 (résumé).
  130. Digital Business Africa, « Les donnĂ©es d’une entreprise comptent parmi les actifs les plus importants »,
  131. La commissaire en chef de la concurrence au sein de l'UE estime que les données massives affectent négativement la concurrence, sur developpez.com du 3 janvier 2018, consulté le 31 mars 2019.
  132. « Rapport du CIB sur les mĂ©gadonnĂ©es et la santĂ© », rapport scientifique,‎ (lire en ligne)
  133. Laurence Allard, Pierre Grosdemouge et Fred Pailler, « Big Data: la nĂ©cessitĂ© d’un dĂ©bat », sur blog du Monde, .
  134. Maxime Ouellet, André Mondoux, Marc Ménard, Maude Bonenfant et Fabien Richert, "Big Data", gouvernance et surveillance, Montréal, Université du Québec à Montréal, , 65 p. (ISBN 978-2-920752-11-5, lire en ligne).
  135. « Déclaration universelle des droits de l'Homme », sur textes.justice.gouv.fr, .
  136. Vayena, E., Salathé, M., Madoff, L. C., & Brownstein, J.S. (2015). Ethical challenges of big data in public health. PLoS computational biology, 11(2), e1003904
  137. « RÈGLEMENT DU PARLEMENT EUROPÉEN ET DU CONSEIL du 27 avril 2016 relatif Ă  la protection des personnes physiques Ă  l'Ă©gard du traitement des donnĂ©es Ă  caractĂšre personnel et Ă  la libre circulation de ces donnĂ©es », sur eur-lex.europa.eu, .
  138. « Architecture data temps rĂ©el, par oĂč commencer ? », sur nexworld.fr, (consultĂ© le )

Voir aussi

Articles connexes

Liens externes

Bibliographie

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.