Big data
Mégadonnées
Le big data /ËbÉȘÉĄ ËdeÉȘtÉ/[1] (litt. « grosses donnĂ©es » en anglais), les mĂ©gadonnĂ©es[2] - [3] ou les donnĂ©es massives[2], dĂ©signe les ressources dâinformations dont les caractĂ©ristiques en termes de volume, de vĂ©locitĂ© et de variĂ©tĂ© imposent lâutilisation de technologies et de mĂ©thodes analytiques particuliĂšres pour crĂ©er de la valeur[4] - [5], et qui dĂ©passent en gĂ©nĂ©ral les capacitĂ©s d'une seule et unique machine et nĂ©cessitent des traitements parallĂ©lisĂ©s.
Lâexplosion quantitative (et souvent redondante) des donnĂ©es numĂ©riques permet une nouvelle approche pour analyser le monde[6]. Le volume colossal de donnĂ©es numĂ©riques disponibles, implique de mettre en oeuvre de nouveaux ordres de grandeur concernant la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des donnĂ©es. Le traitement des big data[7] permet de nouvelles possibilitĂ©s d'exploration de l'information et des donnĂ©es, celles-ci proviennent de nombreuses sources numĂ©riques : les rĂ©seaux sociaux, les mĂ©dias[8], l'OpenData, le Web, des bases de donnĂ©es privĂ©es, publiques Ă caractĂšre commercial ou scientifique. Cela permet des recoupements et des analyses prĂ©dictives dans de nombreux domaines : scientifique, santĂ©, Ă©conomique, commercial⊠La multiplicitĂ© des applications a Ă©tĂ© comprise et dĂ©veloppĂ©e par les plus gros acteurs du secteur des technologies de l'information[9].
Divers experts, grandes institutions (comme le MIT[10] aux Ătats-Unis, le CollĂšge de France[11] en Europe), administrations[12] et spĂ©cialistes sur le terrain des technologies ou des usages[13] considĂšrent le phĂ©nomĂšne big data comme l'un des grands dĂ©fis informatiques de la dĂ©cennie 2010-2020 et en ont fait une de leurs nouvelles prioritĂ©s de recherche et dĂ©veloppement, qui pourrait notamment conduire Ă l'Intelligence artificielle en Ă©tant explorĂ© par des rĂ©seaux de neurones artificiels autoapprenants[14].
Histoire
Le big data a une histoire récente et pour partie cachée, en tant qu'outil des technologies de l'information et comme espace virtuel prenant une importance volumique croissante dans le cyberespace .
L'expression « big data » serait apparue en octobre 1997 selon les archives de la bibliothÚque numérique de l'Association for Computing Machinery (ACM), dans un article scientifique sur les défis technologiques à relever pour visualiser les « grands ensembles de données »[18].
La naissance du Big Data est liĂ©e aux progrĂšs des capacitĂ©s des systĂšmes de stockage, de fouille et d'analyse de l'information numĂ©rique, qui ont vĂ©cu une sorte de big bang des donnĂ©es[19]. Mais ses prĂ©mices sont Ă trouver dans le croisement de la cybernĂ©tique et de courants de pensĂ©e nĂ©s durant la Seconde Guerre mondiale, selon lesquels lâhomme et le monde peuvent ĂȘtre reprĂ©sentĂ©s comme « des ensembles informationnels, dont la seule diffĂ©rence avec la machine est leur niveau de complexitĂ©. La vie deviendrait alors une suite de 0 et de 1, programmable et prĂ©dictible »[20].
Les Ă©volutions qui caractĂ©risent le big data et ses algorithmes, ainsi que celles de la science des donnĂ©es sont en partie cachĂ©es (au sein des services de renseignement des grands Ătats) et si rapides et potentiellement profondes que peu de prospectivistes se risquent Ă pronostiquer son devenir Ă moyen ou long terme[21], mais la plupart des observateurs y voient des enjeux majeurs pour l'avenir, tant en termes d'opportunitĂ©s commerciales[22] que de bouleversements sociopolitiques et militaires, avec en particulier le risque de voir Ă©merger des systĂšmes ubiquistes, orwelliens[23] et totalitaires capables de fortement contrĂŽler, surveiller et/ou influencer les individus et groupes.
Les risques de dérives de la part de gouvernements ou d'entreprises[24] ont surtout d'abord été décrits par Orwell à la fin de la derniÚre guerre mondiale, puis souvent par la science fiction. Avec l'apparition de grandes banques de données dans les années 1970 (et durant toute la période de la guerre froide) de nombreux auteurs s'inquiÚtent des risques pris concernant la protection de la vie privée[25], en particulier Arthur R. Miller (en) qui cite l'exemple de la croissance des données stockées relatives à la santé physique et psychique des individus[26] - [27] - [28].
En 2000, Froomkin, dans un article paru dans la revue Stanford Law Review, se demande si la vie privée n'est pas déjà morte[29], mais ce sont surtout les révélations d'Edward Snowden (2013) qui ont suscité une nouvelle prise de conscience et d'importants mouvements de protestation citoyenne.
Les quatre droits et « Ă©tats de base de la vie privĂ©e » tels qu'Ă©noncĂ©s par Westin en 1962 (droit Ă la solitude[30], Ă l'intimitĂ©, Ă l'anonymat dans la foule et Ă la rĂ©serve) sont menacĂ©s dans un nombre croissant de situations[31], de mĂȘme que la protection du contenu des courriers Ă©lectroniques[32] qui fait partie du droit Ă la vie privĂ©e[33].
Dimensions
Le big data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens[34]. Ces analyses sont appelées big analytics[35] ou « broyage de données ». Elles portent sur des données quantitatives complexes à l'aide de méthodes de calcul distribué et de statistiques.
En 2001, un rapport de recherche du META Group (devenu Gartner)[36] dĂ©finit les enjeux inhĂ©rents Ă la croissance des donnĂ©es comme Ă©tant tri-dimensionnels : les analyses complexes rĂ©pondent en effet Ă la rĂšgle dite « des 3V » (volume, vĂ©locitĂ© et variĂ©tĂ©[37]). Ce modĂšle est encore largement utilisĂ© aujourdâhui pour dĂ©crire ce phĂ©nomĂšne[38]. Aux 3 V initiaux, sont parfois ajoutĂ©s d'autres V comme : VĂ©racitĂ©, Valeur et Visualisation[39] - [40].
Volume
C'est une dimension relative : le big data, comme le notait Lev Manovitch en 2011[41], définissait autrefois « les ensembles de données suffisamment grands pour nécessiter des super-ordinateurs », mais il est rapidement (dans les années 1990/2000) devenu possible d'utiliser des logiciels standards sur des ordinateurs de bureau pour analyser ou co-analyser de vastes ensembles de données[42].
Le volume des données stockées est en pleine expansion : les données numériques créées dans le monde seraient passées de 1,2 zettaoctet par an en 2010 à 1,8 zettaoctet en 2011[43], puis 2,8 zettaoctets en 2012 et s'élÚveront à 64 zettaoctets en 2020[44], et 2 142 zettaoctets en 2035[44]. à titre d'exemple, Twitter générait en janvier 2013, 7 téraoctets de données chaque jour et Facebook 10 téraoctets[45]. En 2014, Facebook Hive générait 4 000 To de data par jour[46].
Les installations technico-scientifiques (météorologie, etc.) produiraient le plus de données. De nombreux projets de dimension pharaonique sont en cours. Le radiotélescope Square Kilometre Array par exemple produira 50 téraoctets de données analysées par jour, tirées de données brutes produites à un rythme de 7 000 téraoctets par seconde[47].
Variété
Le volume des big data met les centres de données face à un réel défi : la variété des données.
Il ne s'agit pas uniquement de donnĂ©es relationnelles traditionnelles, mais surtout de donnĂ©es brutes, semi-structurĂ©es, voire non structurĂ©es (cependant, les donnĂ©es non structurĂ©es devront ĂȘtre analysĂ©es et structurĂ©es ultĂ©rieurement si nĂ©cessaire pour leur utilisation[48]).
Ce sont des données complexes qui proviennent de multiples sources : du web (Web mining), de bases publiques (open data, Web des données), géo-démographiques par ßlot (adresses IP), machines ou objets connectés (IoT), ou relever de la propriété des entreprises et des consommateurs, ce qui les rend inaccessibles aux outils traditionnels.
La dĂ©multiplication des outils de collecte sur les individus et sur les objets permet dâamasser toujours plus de donnĂ©es[49]. Les analyses sont dâautant plus complexes quâelles portent de plus en plus sur les liens entre des donnĂ©es de natures diffĂ©rentes.
Vélocité
La vélocité représente la fréquence à laquelle les données sont à la fois engendrées, capturées, partagées et mises à jour[50].
Des flux croissants de donnĂ©es doivent ĂȘtre analysĂ©s en quasi-temps rĂ©el (fouille de flots de donnĂ©es) pour rĂ©pondre aux besoins des processus chrono-sensibles[51]. Par exemple, les systĂšmes mis en place par la bourse et les entreprises doivent ĂȘtre capables de traiter ces donnĂ©es avant quâun nouveau cycle de gĂ©nĂ©ration nâait commencĂ©, avec le risque pour l'Homme de perdre une grande partie de la maĂźtrise du systĂšme quand les principaux opĂ©rateurs deviennent des machines sans disposer de tous les critĂšres pertinents d'analyse pour le moyen et long terme.
Véracité
La vĂ©racitĂ© fait rĂ©fĂ©rence Ă la fiabilitĂ© et Ă la dimension qualitative des donnĂ©es. Traiter et gĂ©rer lâincertitude et les erreurs rencontrĂ©es dans certaines donnĂ©es, reprĂ©sente un challenge de taille pour fiabiliser et minimiser les biais[39] - [40].
Valeur
Les efforts et les investissements dans l'utilisation et application Big Data nâont de sens que si elles apportent de la valeur ajoutĂ©e[39] - [40].
Visualisation
La mise en forme et mise à disposition des données et des résultats de l'analyse des données, permet de faciliter sa compréhension et son interprétation, afin d'améliorer la prise de décisions[39].
Différence avec l'informatique décisionnelle
Si la dĂ©finition du Gartner en 3V est encore largement reprise (voire augmentĂ©e de « V » supplĂ©mentaires selon lâinspiration des services marketing), la maturation du sujet fait apparaĂźtre un autre critĂšre plus fondamental de diffĂ©rence avec l'informatique dĂ©cisionnelle et concernant les donnĂ©es et leur utilisation[52] :
- Informatique décisionnelle : utilisation de statistique descriptive, sur des données à forte densité en information afin de mesurer des phénomÚnes, détecter des tendances⊠;
- Big data : utilisation de statistique infĂ©rentielle, sur des donnĂ©es Ă faible densitĂ© en information[53] dont le grand volume permet dâinfĂ©rer des corrĂ©lations et lois mathĂ©matiques ou statistiques (rĂ©gressionsâŠ) donnant dĂšs lors au big data (avec les limites de lâinfĂ©rence) des capacitĂ©s de gĂ©nĂ©ralisation pouvant ĂȘtre qualifiĂ©es de prĂ©dictives[54].
Synthétiquement :
- l'informatique traditionnelle, informatique décisionnelle comprise, est basée sur un modÚle du monde ;
- le big data vise à ce que les mathématiques trouvent un modÚle dans les données[55] - .
Représentation
ModĂšles
Les bases de donnĂ©es relationnelles classiques ne permettent pas de gĂ©rer les volumes de donnĂ©es du big data. De nouveaux modĂšles de reprĂ©sentation permettent de garantir les performances sur les volumĂ©tries en jeu. Ces technologies, dites de business analytics and optimization (BAO) permettent de gĂ©rer des bases massivement parallĂšles[56]. Des patrons dâarchitecture (« big data architecture framework », BDAF)[57] sont proposĂ©s par les acteurs de ce marchĂ© comme MapReduce crĂ©Ă© par Google et utilisĂ© dans le framework Hadoop. Avec ce systĂšme, les requĂȘtes sont sĂ©parĂ©es et distribuĂ©es Ă des nĆuds parallĂ©lisĂ©s, puis exĂ©cutĂ©es en parallĂšle (map). Les rĂ©sultats sont ensuite rassemblĂ©s et rĂ©cupĂ©rĂ©s (reduce). Teradata, Oracle ou EMC (via le rachat de Greenplum) proposent Ă©galement de telles structures, basĂ©es sur des serveurs standards dont les configurations sont optimisĂ©es. Ils sont concurrencĂ©s par des Ă©diteurs comme SAP et plus rĂ©cemment Microsoft[58]. Les acteurs du marchĂ© sâappuient sur des systĂšmes Ă forte Ă©volutivitĂ© horizontale et sur des solutions basĂ©es sur du NoSQL (MongoDB, Cassandra) plutĂŽt que sur des bases de donnĂ©es relationnelles classiques[59].
Stockage
Pour rĂ©pondre aux problĂ©matiques big data, lâarchitecture de stockage des systĂšmes doit ĂȘtre repensĂ©e et les modĂšles de stockage se multiplient en consĂ©quence.
- Lac de données : moyen de stockage de données massives en clusters, et gardées dans leurs formats originaux, pour pouvoir stocker tout format de données de maniÚre rapide et peu coûteuse.
- Cloud computing[60] : lâaccĂšs se fait via le rĂ©seau, les services sont accessibles Ă la demande et en libre service sur des ressources informatiques partagĂ©es et configurables[61]. Les services les plus connus sont ceux de Google BigQuery, Big Data sur Amazon Web Services et Microsoft Windows Azure.
- Super calculateurs hybrides : les HPC pour high performance computing, peuvent ĂȘtre utilisĂ©s dans le domaine des Big Data pour leur puissance de calcul et d'analyse. On en retrouve en France dans les centres nationaux de calculs universitaire tels que lâIDRIS, le CINES, mais aussi au CEA ou encore le HPC-LR[62] ou Ă MĂ©tĂ©o France[63] - [64].
- SystĂšmes de fichiers distribuĂ©s (ou DFS pour distributed file system) : les donnĂ©es ne sont plus stockĂ©es sur une seule machine car la quantitĂ© est beaucoup trop importante. Les donnĂ©es sont rĂ©parties sur une machine bien prĂ©cise utilisant du stockage local[65]. Le stockage local est prĂ©fĂ©rĂ© au stockage SAN et NAS pour des raisons de goulots d'Ă©tranglement au niveau du rĂ©seau et des interfaces rĂ©seaux des SAN. De plus, utiliser un stockage de type SAN coĂ»te bien plus cher pour des performances bien moindres. Dans les systĂšmes de stockage distribuĂ© pour le big data, l'on introduit le principe de data locality[65]. Les donnĂ©es sont sauvegardĂ©es lĂ oĂč elles peuvent ĂȘtre traitĂ©es.
- Virtualisation du stockage : La virtualisation des données est un moyen de rassembler des données provenant de plusieurs sources dans une seule « vue ». L'assemblage est virtuel : contrairement à d'autres méthodes, la plupart des données restent en place et sont extraites des sources brutes à la demande[66].
Applications
Le big data trouve des applications dans de nombreux domaines : programmes scientifiques (CERN28 Mastodons), outils d'entreprises (IBM29, Amazon Web Services, BigQuery, SAP HANA) parfois spĂ©cialisĂ©es (Teradata, Jaspersoft30, Pentaho31âŠ) ou startups, ainsi que dans le domaine de l'open source (Apache Hadoop, Infobright32, Talend33âŠ) et de logiciels d'exploitation ouverts (avec par exemple le logiciel ouvert d'analyse de big data H2O).
Les applications du BigData sont trĂšs nombreuses : il permet des recoupements et des analyses prĂ©dictives dans les domaines de connaissance et d'Ă©valuation, d'analyse tendancielle et prospective (climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des risques (commerciaux, assuranciels, industriels, naturels) et de prise de dĂ©cisions, et de phĂ©nomĂšnes religieux, culturels, politiques[67], mais aussi en termes de gĂ©nomique ou mĂ©tagĂ©nomique[68], pour la mĂ©decine (comprĂ©hension du fonctionnement du cerveau, Ă©pidĂ©miologie, Ă©coĂ©pidĂ©miologieâŠ), la mĂ©tĂ©orologie et l'adaptation aux changements climatiques, la gestion de rĂ©seaux Ă©nergĂ©tiques complexes (via les smartgrids ou un futur « internet de l'Ă©nergie »), l'Ă©cologie (fonctionnement et dysfonctionnement des rĂ©seaux Ă©cologiques, des rĂ©seaux trophiques avec le GBIF par exemple), ou encore la sĂ©curitĂ© et la lutte contre la criminalitĂ©[69], ou encore amĂ©liorer l'« expĂ©rience client » en la rendant plus personnalisĂ©e et contextualisĂ©e[70]. La multiplicitĂ© de ces applications laisse d'ailleurs dĂ©jĂ poindre un vĂ©ritable Ă©cosystĂšme Ă©conomique impliquant, d'ores et dĂ©jĂ , les plus gros acteurs du secteur des technologies de l'information[9].
Recherche scientifique
Le big data en est issu et il alimente une partie de la recherche. Ainsi le Large Hadron Collider du CERN utilise environ 150 millions de capteurs dĂ©livrant des donnĂ©es 40 millions de fois par seconde ; Pour 600 millions de collisions par seconde, il reste aprĂšs filtrage 100 collisions d'intĂ©rĂȘt par seconde, soit 25 Po de donnĂ©es Ă stocker par an, et 200 Po aprĂšs rĂ©plication[71] - [72] - [73]. Les outils d'analyse du big data pourraient affiner l'exploitation de ces donnĂ©es.
Quand le Sloan Digital Sky Survey (SDSS) a commencĂ© Ă collecter des donnĂ©es astronomiques en 2000, il a amassĂ© en quelques semaines plus de donnĂ©es que toutes celles prĂ©cĂ©demment collectĂ©es dans lâhistoire de lâastronomie. Il continue Ă un rythme de 200 Go par nuit, et a en 10 ans (2000-2010) stockĂ© plus de 140 tĂ©raoctets dâinformation. Le Large Synoptic Survey Telescope prĂ©vu pour 2015 devrait en amasser autant tous les cinq jours[74].
DĂ©coder le premier gĂ©nome humain a nĂ©cessitĂ© dix ans, mais prend aujourd'hui moins d'une semaine : les sĂ©quenceurs d'ADN ont progressĂ© d'un facteur 10 000 les dix derniĂšres annĂ©es, soit 100 fois la loi de Moore (qui a progressĂ© d'un facteur 100 environ sur 10 ans)[75]. En biologie, les approches massives basĂ©es sur une logique dâexploration des donnĂ©es et de recherche dâinduction sont lĂ©gitimes et complĂ©mentaires des approches classiques basĂ©es sur l'hypothĂšse initiale formulĂ©e[76]. Le big data s'est aussi introduit dans le domaine des protĂ©ines.
Le NASA Center for Climate Simulation (NCCS) stocke 32 Po de donnĂ©es dâobservations et de simulations climatiques[77].
Les sciences sociales explorent des corpus aussi variés que le contenu de Wikipédia dans le monde ou les millions de publications et de tweets sur Internet.
PlanĂšte et climat
Le big data mondial contient des donnĂ©es essentielles « pour rĂ©soudre l'Ă©quation climatique », et notamment pour amĂ©liorer l'efficacitĂ© Ă©nergĂ©tique des villes et bĂątiments, pour les smartgrids, pour vĂ©rifier l'application de rĂšglementations visant Ă lutter contre la dĂ©forestation, la surpĂȘche, la dĂ©gradation des sols, le gaspillage alimentaire ou Ă mieux gĂ©rer les dĂ©chets, Ă©co-consommer ou inciter les investisseurs Ă crĂ©er des villes intelligentes[78], etc.
Lors de la COP 23 (Bonn, 2017) un événement parallÚle de haut niveau organisé par le « Forum sur l'innovation durable » et le PNUD a réuni des dirigeants de sociétés de données du secteur privé et des représentants des Nations unies. Ce groupe a appelé à développer la « philanthropie des données », c'est-à -dire à massivement et de maniÚre altruiste partager les données[79] - [80] pour stimuler l'efficacité, l'innovation et le soutien aux actions de protection du climat et de résilience face au changement climatique. Une meilleure collecte, mise à disposition de tous, analyse et utilisation des données volumineuses est une condition selon ce groupe pour atteindre l'objectif 2030 no 13 (pour le climat) de l'ONU[81] et les objectifs de l'Accord de Paris sur le climat[78].
C'est ce qu'y a rappelé Amina J. Mohammed, Secrétaire générale adjointe des Nations unies, dans son discours d'ouverture. C'est le cas notamment des données météo nécessaires à l'agriculture, à la protection de l'économie et des infrastructures vulnérables aux aléas climatiques[78].
En 2017, le PNUD aide plus de 75 pays Ă moderniser leurs systĂšmes de surveillance mĂ©tĂ©orologique et climatiques. Dans les pays dits Ă©mergents, un effort reste Ă faire pour le « dernier kilomĂštre » ; par exemple, les « opĂ©rateurs mobiles » pourraient mieux recevoir l'information mĂ©tĂ©orologique et aider Ă un partage des donnĂ©es sur les rĂ©coltes et problĂšmes de culture via des tĂ©lĂ©phones portables ; les antennes relais pourraient elles-mĂȘmes, en lien avec des sociĂ©tĂ©s de Big Data devenir des plates-formes de regroupement de donnĂ©es utiles Ă l'Ă©laboration de plans locaux et nationaux d'adaptation au changement climatique, et utiles Ă l'Ă©laboration de stratĂ©gies sectorielles de rĂ©silience climatique[78].
Les difficultés d'anonymisation de la donnée privée restent cependant un important frein au partage efficace de données massives entre les décideurs et le grand-public. La « philanthropie des données » vise à faire des secteurs public et privé deux partenaires égaux[78].
- En 2016, le PNUD a organisé un concours d'innovation (Climate Action Hackathon) qui a attribué des bourses à 23 développeurs Web pour créer des applications mobiles de terrain en Afrique, utilisant les données climatiques et météorologiques[78].
- En 2017 un concours « Data for Climate Action Challenge » a été lancé début 2017 par Global Pulse (Onu) pour susciter l'innovation en matiÚre de données ouvertes axée sur l'exploitation du Big Data et de l'analyse de données au service du bien commun. Ce concours vise à catalyser l'action sur le changement climatique. Il a mis en relation 97 équipes de recherche (semi-finalistes) avec des jeux de données venant de 11 entreprises[78].
En 2016 Taylor s'interroge : Quand le big data est prĂ©sentĂ© comme un commun ou un bien public ; de quel bien parle-t-on ? et Ă quel public le destine-t-on rĂ©ellement[82] ? en citant notamment Robert Kirkpatrick (directeur de UN Global Pulse) pour qui « le big data est comme un nouveau type de ressource naturelle (ou non-naturelle) infiniment renouvelable, de plus en plus omniprĂ©sente - mais qui est tombĂ©e entre les mains d'une industrie extractive opaque et largement non rĂ©glementĂ©e, qui commence seulement Ă se rendre compte qu'il existe une opportunitĂ© sociale - et peut-ĂȘtre une responsabilitĂ© sociale - Ă s'assurer que ces donnĂ©es atteignent les personnes qui en ont le plus besoin »[79] - [82].
Politique, Ă©lections, et renseignement
Lâanalyse du big data a jouĂ© un rĂŽle important dans la campagne de rĂ©Ă©lection de Barack Obama, notamment pour analyser les opinions politiques de la population[83] - [84] - [85].
Depuis 2012, le dĂ©partement de la DĂ©fense amĂ©ricain investit annuellement sur les projets big data plus de 250 millions de dollars[86]. Le gouvernement amĂ©ricain possĂšde six des dix plus puissants supercalculateurs de la planĂšte[87]. La National Security Agency a notamment construit le Utah Data Center qui stocke depuis septembre 2014 jusqu'Ă un yottaoctet dâinformations collectĂ©es par la NSA sur internet[88]. En 2013, le big data faisait partie des sept ambitions stratĂ©giques de la France dĂ©terminĂ©es par la Commission innovation 2030[89].
Profilage des utilisateurs par le secteur privé
La revente de fichier de profil utilisateur peut participer au big data.
Walmart traite plus d'un million de transactions client par heure, importĂ©es dans des bases de donnĂ©es qui contiendraient plus de 2,5 Po dâinformation[90]. Facebook traite 50 milliards de photos. Dâune maniĂšre gĂ©nĂ©rale l'exploration de donnĂ©es de big data permet lâĂ©laboration de profils clients dont on ne supposait pas lâexistence[91].
Le musĂ©e Solomon R. Guggenheim construit sa stratĂ©gie en analysant des donnĂ©es massives : dans les salles des transmetteurs Ă©lectroniques suivent les visiteurs tout au long de leur visite. Le musĂ©e dĂ©termine ainsi de nouveaux parcours de visite en fonction des Ćuvres les plus apprĂ©ciĂ©es, ou dĂ©cider des expositions Ă mettre en place[92].
Secteur énergétique
Les bùtiments intelligents (éventuellement au sein de villes intelligentes) sont caractérisés par une « hybridation » entre numérique et énergie.
Ces bĂątiments ou logements individuels peuvent produire de l'Ă©nergie (voire ĂȘtre positifs en Ă©nergie). Ils peuvent aussi produire des donnĂ©es sur cette Ă©nergie et/ou sur leur consommation d'Ă©nergies. Ces donnĂ©es une fois agrĂ©gĂ©es et analysĂ©es peuvent permettre d'apprĂ©hender voire d'anticiper la consommation des usagers, des quartiers, villes, etc. en fonction des variations du contexte, mĂ©tĂ©orologique notamment.
L'analyse des donnĂ©es collectĂ©es de production (solaire, microĂ©olienâŠ) et de consommation dans un bĂątiment, par le biais des objets connectĂ©s et du smartgrid, permet aussi potentiellement de mieux gĂ©rer la consommation des usagers (de maniĂšre personnalisĂ©e).
En attendant un dĂ©veloppement plus large du stockage de l'Ă©nergie, les jours nuageux et sans vent il faut encore faire appel Ă des centrales conventionnelles, et les jours exceptionnellement beaux et venteux (ex. : en Allemagne, 8 mai 2016 oĂč durant 4 heures le vent et le soleil ont engendrĂ© plus de 90 % de l'Ă©lectricitĂ© du pays, les centrales Ă©lectriques au charbon et au gaz doivent rĂ©duire Ă temps leur production). Un cas extrĂȘme est celui dâune Ă©clipse solaire (prĂ©visible). La gestion de ces pics et intermittences coĂ»te aujourdâhui plus de 500 millions âŹ/an Ă lâAllemagne et conduit Ă des Ă©missions de CO2 et autres gaz Ă effet de serre que lâon voudrait Ă©viter[93]. GrĂące aux corrĂ©lations pouvant Ă©merger de l'analyse fine des mĂ©gadonnĂ©es, les opĂ©rateurs de l'Ă©nergie peuvent mieux apprĂ©hender les variations fines du gisement des Ă©nergies renouvelables et les croiser avec la demande rĂ©elle.
Exemples
- En 2009 la Centre national pour la recherche atmosphĂ©rique (NCAR) de Boulder dans le Colorado a lancĂ© un tel systĂšme. Il est mi-2016 opĂ©rationnel dans huit Ătats amĂ©ricains. Au sein de Xcel Energy (entreprise basĂ©e Ă Denver, (Colorado) qui dispose de la premiĂšre capacitĂ© Ă©olienne des Ătats-Unis), cette approche a amĂ©liorĂ© la prĂ©vision, assez pour que depuis 2009, les clients aient Ă©vitĂ© US $ 60 millions/an de dĂ©penses, et lâĂ©mission de plus d'un quart d'un million de tonnes CO2/an grĂące Ă un moindre recours aux Ă©nergies fossiles[93] ;
- En 2016, lâAllemagne a fait un pas important vers lâinternet de l'Ă©nergie tel que proposĂ© par le prospectiviste Jeremy Rifkin en expĂ©rimentant un processus (EWeLiNE[94]) dâanalyse automatique du big data Ă©nergĂ©tique et mĂ©tĂ©orologique.
Contexte : Avec 45 000 mĂ©gawatts, la capacitĂ© Ă©olienne de l'Allemagne est la 3e au monde, derriĂšre la Chine et les Ătats-Unis, et seule la Chine rivalise avec lâAllemagne en termes de capacitĂ© solaire. Un tiers de l'Ă©lectricitĂ© est en 2016 dâorigine renouvelable et le gouvernement cible au 80 % du total avant 2050 et 35 % avant 2020[93]. Cela va demander de dĂ©velopper un « smartgrid » permettant une rĂ©partition et un stockage encore plus intelligent et rĂ©actif de lâĂ©nergie.
L'expĂ©rimentation : En juin 2016, pour mieux adapter le rĂ©seau Ă©lectrique (rĂ©seau Ă©lectrique intelligent) au caractĂšre intermittent du solaire et de l'Ă©olien, ainsi quâaux variations instantanĂ©es, quotidiennes et saisonniĂšres de la demande, et pour limiter lâappel aux Ă©nergies fossiles, lâAllemagne a lancĂ© un processus (baptisĂ© EWeLiNE) dâanalyse automatique du big data.
- EWeLiNE associe trois opĂ©rateurs (TSOs Amprion GmbH, TenneT TSO GmbH et 50 Hertz)[93]. Ils bĂ©nĂ©ficient de 7 M⏠(dĂ©boursĂ©s par le ministĂšre fĂ©dĂ©ral des affaires Ă©conomiques et de l'Ă©nergie)[93]. Des logiciels vont exploiter le big data des donnĂ©es mĂ©tĂ©o et des donnĂ©es d'intĂ©rĂȘt Ă©nergĂ©tique pour prĂ©voir avec une prĂ©cision croissante la capacitĂ© productive instantanĂ©e des ENR (car quand le vent augmente ou quâun nuage passe au-dessus d'une ferme solaire, la production augmente ou chute localement et le rĂ©seau doit sâadapter). EWeLiNE doit amĂ©liorer la gestion anticipĂ©e et en temps rĂ©el de la production et de la consommation grĂące Ă la prĂ©vision Ă©nergĂ©tico-mĂ©tĂ©orologique via un systĂšme « apprenant » de prĂ©vision statistiquement avancĂ©e de la force du vent (au niveau du moyeu d'une turbine) et de la puissance solaire (au niveau des modules photovoltaĂŻque).
Les grandes Ă©oliennes mesurent souvent elles-mĂȘmes en temps rĂ©el la vitesse du vent au niveau des turbines, et certains panneaux solaires intĂšgrent des capteurs dâintensitĂ© lumineuse[93]. EWeLiNE combine ces donnĂ©es avec les donnĂ©es mĂ©tĂ©o classiques (terrestre, radar et satellitale) et les transfĂšre dans des modĂšles informatiques sophistiquĂ©s (« systĂšmes apprenants ») pour mieux prĂ©dire la production d'Ă©lectricitĂ© durant les prochaines 48 heures (ou plus)[93]. L'Ă©quipe scientifique vĂ©rifie ces prĂ©visions de puissance, et les ordinateurs « apprennent » de leurs erreurs, permettant aux modĂšles prĂ©dictifs dâĂȘtre de plus en plus prĂ©cis.
EWeLiNE a dâabord Ă©tĂ© testĂ© (en juin 2016) sur quelques rĂ©seaux de panneaux solaires et d'Ă©oliennes Ă©quipĂ©s de capteurs. Ă partir de juillet, les opĂ©rateurs vont peu Ă peu Ă©tendre le systĂšme en se connectant Ă un nombre croissant dâinstallations solaires et Ă©oliennes qui leur transmettront en temps rĂ©el leurs donnĂ©es pour ajuster la quantitĂ© d'Ă©nergie produite Ă lâĂ©chelle du pays (lâobjectif est de le faire en 2 ans)[93]. On sâapprochera alors de ce que J Rifkin a nommĂ© lâinternet de lâĂ©nergie, si ce nâest quâil y intĂšgre aussi les usages domestiques et individuels (ce qui devrait ĂȘtre permis par la diffusion des compteurs intelligents et de systĂšmes intelligents et locaux ou mobiles de stockage de lâĂ©nergie).
Premiers retours : Les premiers rĂ©sultats allemands laissent penser que lâapproche fonctionnera, car le travail des modĂ©lisateurs allemand avait dĂ©jĂ permis de bonnes amĂ©liorations avant lâaccĂšs Ă ces donnĂ©es. EWeLiNE nâest pas une dĂ©clinaison ni une traduction du systems amĂ©ricain du NCAR ; les modĂšles mĂ©tĂ©orologiques et les algorithmes convertissant les prĂ©visions mĂ©tĂ©orologiques en prĂ©visions de puissance diffĂšrent[93]
Utilisation par le secteur privé
Dans la majoritĂ© des cas, les entreprises peuvent utiliser les donnĂ©es pour mieux connaitre leur marchĂ©. En effet les donnĂ©es collectĂ©es par les cartes de fidĂ©litĂ© et les historiques dâachat permettent de mieux comprendre le marchĂ© de maniĂšre gĂ©nĂ©rale, dâen faire une meilleure segmentation[95] . Les entreprises vont pouvoir proposer des articles qui correspondent aux envies du clients par le ciblage. Le meilleur exemple serait Amazon qui, grĂące au big data, a rĂ©ussi Ă accroitre la pertinence de ses recommandations[96]. Le Big Data permet donc de dĂ©gager un schĂ©ma global aidant Ă comprendre le marchĂ©. Lâentreprise saura alors quels produits proposĂ©s ou sur quels produits il faut davantage accentuer la communication afin de les rendre plus attrayants[97]. Tout cela peut ĂȘtre crucial pour lâentreprise. Mais elles peuvent aussi utiliser les donnĂ©es dans un autre registre : amĂ©liorer leurs technologies. Par exemple Rolls-Royce met des capteurs dans les moteurs de leurs rĂ©acteurs afin de dâavoir de multiples informations pendant le vol[96]. Cet auteur explique quâavant le boom du big data, les informations jugĂ©es superflues Ă©taient dĂ©truites par les ordinateurs mais maintenant elles sont collectĂ©es dans des serveurs centraux afin de crĂ©er des modĂšles permettant de prĂ©voir des pannes et/ou des dĂ©faillances. Elle a donc renforcĂ© la suretĂ© de ses rĂ©acteurs et a pu transformer ces donnĂ©es en profit.
Perspectives et Ă©volutions
L'un des principaux enjeux de productivité du big data dans son évolution va porter sur la logistique de l'information, c'est-à -dire sur la maniÚre de garantir que l'information pertinente arrive au bon endroit au bon moment. Il s'agit d'une approche micro-économique. Son efficacité dépendra ainsi de celle de la combinaison entre les approches micro- et macro-économique d'un problÚme.
Selon certaines sources, les données numériques créées dans le monde atteindraient 47 zettaoctets d'ici 2020[44] et 175 zettaoctets en 2035[44]. à titre de comparaison, Facebook générait environ 10 téraoctets de données par jour au début 2013. Le développement de l'hébergement massif de données semble avoir été accéléré par plusieurs phénomÚnes simultanément : la pénurie de disques durs à la suite des inondations en Thaïlande en 2011, l'explosion du marché des supports mobiles (smartphones et tablettes notamment), etc. Ajouté à cela, la démocratisation du cloud-computing de plus en plus proche, grùce à des outils comme Dropbox, amÚne le big data au centre de la logistique de l'information.
Afin de pouvoir exploiter au maximum le big data, de nombreuses avancĂ©es doivent ĂȘtre faites, et ce en suivant trois axes.
Modélisation de données
Les méthodes de modélisation de données ainsi que les systÚmes de gestion de base de données relationnelles classiques ont été conçus pour des volumes de données trÚs inférieurs. La fouille de données a des caractéristiques fondamentalement différentes et les technologies actuelles ne permettent pas de les exploiter.
Dans le futur il faudra des modĂ©lisations de donnĂ©es et des langages de requĂȘtes permettant :
- une représentation des données en accord avec les besoins de plusieurs disciplines scientifiques ;
- de décrire des aspects spécifiques à une discipline (modÚles de métadonnées) ;
- de représenter la provenance des données ;
- de représenter des informations contextuelles sur la donnée ;
- de reprĂ©senter et supporter lâincertitude ;
- de représenter la qualité de la donnée[98] ;
- de réaliser l'approximation d'un gros volume de données[99].
De trÚs nombreux autres thÚmes de recherche sont liés à ce thÚme, citons notamment : la réduction de modÚle pour les EDP, l'acquisition comprimée en imagerie, l'étude de méthodes numériques d'ordre élevé⊠Probabilités, statistiques, analyse numérique, équations aux dérivées partielles déterministes et stochastiques, approximation, calcul haute performance, algorithmique⊠Une grande partie de la communauté scientifique, notamment en mathématiques appliquées et en informatique, est concernée par ce thÚme porteur.
Gestion de données
Le besoin de gĂ©rer des donnĂ©es extrĂȘmement volumineuses est flagrant et les technologies dâaujourdâhui ne permettent pas de le faire. Il faut repenser des concepts de base de la gestion de donnĂ©es qui ont Ă©tĂ© dĂ©terminĂ©s dans le passĂ©. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidĂ©rer le principe qui veut quâune requĂȘte sur un SGBD fournisse une rĂ©ponse complĂšte et correcte sans tenir compte du temps ou des ressources nĂ©cessaires. En effet la dimension exploratoire de la fouille de donnĂ©es fait que les scientifiques ne savent pas nĂ©cessairement ce quâils cherchent. Il serait judicieux que le SGBD puisse donner des rĂ©ponses rapides et peu coĂ»teuses qui ne seraient quâune approximation, mais qui permettraient de guider le scientifique dans sa recherche[98].
Dans le domaine des donnĂ©es clients, il existe Ă©galement de rĂ©els besoins d'exploitation de ces donnĂ©es, en raison notamment de la forte augmentation de leur volume des derniĂšres annĂ©es[100]. Le big data et les technologies associĂ©es permettent de rĂ©pondre Ă diffĂ©rents enjeux tels que l'accĂ©lĂ©ration des temps dâanalyse des donnĂ©es clients, la capacitĂ© Ă analyser lâensemble des donnĂ©es clients et non seulement un Ă©chantillon de celles-ci ou la rĂ©cupĂ©ration et la centralisation de nouvelles sources de donnĂ©es clients Ă analyser afin dâidentifier des sources de valeur pour lâentreprise.
Outils de gestion des données
Les outils utilisĂ©s au debut des annĂ©es 2010 ne sont pas en adĂ©quation avec les volumes de donnĂ©es engendrĂ©s dans lâexploration du big data. Il est nĂ©cessaire de concevoir des instruments permettant de mieux visualiser, analyser, et cataloguer les ensembles de donnĂ©es afin de permettre une optique de recherche guidĂ©e par la donnĂ©e[98]. La recherche en big data ne fait que commencer. La quantitĂ© de donnĂ©es Ă©volue beaucoup plus rapidement que nos connaissances sur ce domaine. Le site The Gov Lab prĂ©voit qu'il n y aura pas suffisamment de scientifiques du data. En 2018, les Ătats-Unis auraient besoin de 140 000 Ă 190 000 scientifiques spĂ©cialisĂ©s en big data[86].
Gestion de l'entropie
Le dĂ©luge de donnĂ©es qui alimente le big data (et dont certaines sont illĂ©gales ou incontrĂŽlĂ©es) est souvent mĂ©taphoriquement comparĂ© Ă la fois Ă un flux continu de nourriture, de pĂ©trole ou dâĂ©nergie (qui alimente les entreprises du data mining et secondairement la sociĂ©tĂ© de lâinformation[101]) qui expose au risque dâinfobĂ©sitĂ© et pourrait ĂȘtre comparĂ© Ă lâĂ©quivalent dâune « pollution »[42] du cyberespace et de la noosphĂšre (mĂ©taphoriquement, le big data correspondrait pour partie Ă une sorte de grande marĂ©e noire informationnelle, ou Ă une eutrophisation diffuse mais croissante et continue du monde numĂ©rique pouvant conduire Ă une dystrophisation, voire Ă des dysfonctions au sein des Ă©cosystĂšmes numĂ©riques)[102].
Face Ă cette « entropie informationnelle » quelques rĂ©ponses de type nĂ©guentropique sont nĂ©es (WikipĂ©dia en fait partie en triant et restructurant de lâinformation dĂ©jĂ publiĂ©e).
Dâautres rĂ©ponses ont Ă©tĂ© la crĂ©ation de moteurs de recherche et dâoutils dâanalyse sĂ©mantique et de fouille de flots de donnĂ©es, de plus en plus puissants et rapides.
NĂ©anmoins, l'analyse du big data tend elle-mĂȘme Ă engendrer du big data, avec un besoin de stockage et de serveurs qui semble exponentiel.
Bilan énergétique
ParallĂšlement Ă la croissance de la masse et du flux de donnĂ©es, une Ă©nergie croissante est dĂ©pensĂ©e d'une part dans la course aux outils de datamining, au chiffrement/dĂ©chiffrement et aux outils analytiques et dâauthentification, et d'autre part dans la construction de fermes de serveurs qui doivent ĂȘtre refroidis ; au dĂ©triment du bilan Ă©nergĂ©tique et Ă©lectrique du Web.
Idées reçues
En 2010, les jeux de donnĂ©es produites par lâhomme sont de plus en plus complĂ©tĂ©s par d'autres donnĂ©es, massivement acquises de maniĂšre passive et automatique par un nombre croissant de capteurs Ă©lectroniques et sous des formes de plus en plus interopĂ©rables et comprĂ©hensibles par les ordinateurs. Le volume de donnĂ©es stockĂ©es dans le monde fait plus que doubler tous les deux ans, et en migrant de plus en plus sur internet, les uns voient dans le big data intelligemment utilisĂ© une source dâinformation qui permettrait de lutter contre la pauvretĂ©, la criminalitĂ© ou la pollution. Et Ă l'autre extrĂ©mitĂ© du spectre des avis, d'autres, souvent dĂ©fenseurs de la confidentialitĂ© de la vie privĂ©e, en ont une vision plus sombre, craignant ou affirmant que le big data est plutĂŽt un Big Brother se prĂ©sentant dans de « nouveaux habits »[103], « dans des vĂȘtements de lâentreprise »[104].
En 2011 Ă l'occasion d'un bilan sur 10 ans d'Internet pour la sociĂ©tĂ©, Danah Boyd (de Microsoft Research) et Kate Crawford (University of New South Wales) dĂ©nonçaient de maniĂšre provocatrice six problĂšmes liĂ©s Ă des idĂ©es reçues sur le big data[105] : « Lâautomatisation de la recherche change la dĂ©finition du savoir (âŠ) Les revendications dâobjectivitĂ© et dâexactitude sont trompeuses (âŠ) De plus grosses donnĂ©es ne sont pas toujours de meilleures donnĂ©es (âŠ) Toutes les donnĂ©es ne sont pas Ă©quivalentes (âŠ) Accessible ne signifie pas Ă©thique (âŠ) LâaccĂšs limitĂ© aux big data crĂ©e de nouvelles fractures numĂ©riques »[42] entre les chercheurs ayant accĂšs aux donnĂ©es de l'intĂ©rieur ou en payant ce droit d'accĂšs[42].
Risques et problĂšmes
Plusieurs types de risques d'atteinte à la vie privée et aux droits fondamentaux sont cités par la littérature :
- DĂ©shumanisation : dans ce que Bruce Schneier dĂ©nomme « lâĂąge dâor de la surveillance », la plupart des individus peuvent se sentir dĂ©shumanisĂ©s et ils ne peuvent plus protĂ©ger les donnĂ©es personnelles ou non qui les concernent, et qui sont collectĂ©es, analysĂ©es et vendues Ă leur insu. Alors qu'il devient difficile de se passer de carte bleue, de smartphone ou de consultation de l'internet, ils peuvent avoir le sentiment de ne pas pouvoir Ă©chapper Ă une surveillance constante oĂč Ă des pressions visant Ă les faire consommer, voter, etc.
- Faille de sĂ©curitĂ© informatique : dans un monde de plus en plus interconnectĂ© et liĂ© Ă lâInternet, la sĂ©curitĂ© en ligne devient cruciale, pour la protection de la vie privĂ©e, mais aussi pour l'Ă©conomie (ex. : en cas de problĂšme grave, des risques existent de perte de confiance, concernant la sĂ©curitĂ© des processus dâachat en ligne par exemple ; ils pourraient avoir des consĂ©quences Ă©conomiques importantes).
- « Vassalisation de la recherche scientifique par des sociétés commerciales et leurs services de marketing »[42].
- ApophĂ©nie (dĂ©ductions indues)[42] : les biais dâaccĂšs et dâinterprĂ©tation sont nombreux (« un corpus nâest pas plus scientifique ou objectif parce que lâon est en mesure dâaspirer toutes les donnĂ©es dâun site. Dâautant quâil existe de nombreux biais (techniques avec les API, mais aussi organisationnels) dans lâaccĂšs mĂȘme Ă ces donnĂ©es quâon aurait tort de considĂ©rer comme totales. Cet accĂšs ne repose en effet que sur le bon vouloir de sociĂ©tĂ©s commerciales et sur les moyens financiers dont disposent chercheurs et universitĂ©s) »[42] ;
De plus, un biais liĂ© au genre existe : la grande majoritĂ© des chercheurs experts en informatique sont aujourdâhui des hommes, or des historiennes fĂ©ministes et les philosophes des sciences ont montrĂ© que le sexe de celui qui pose les questions dĂ©termine souvent les questions qui seront posĂ©es[106]. - MĂ©sinterprĂ©tation de certaines donnĂ©es liĂ©es Ă l'altĂ©ritĂ©, avec d'Ă©ventuelles consĂ©quences sociopsychologiques, par exemple et de mauvaise comprĂ©hension ou interprĂ©tation de lâautre (« lâautre nâest pas une donnĂ©e » rappelle D. Pucheu[107]).
Un autre risque est celui d'une « rarĂ©faction des occasions dâexposition des individus Ă des choses qui nâauraient pas Ă©tĂ© prĂ©-vues pour eux, et donc un assĂšchement de lâespace public (comme espace de dĂ©libĂ©ration, de formation de projets non rabattus sur la seule concurrence des intĂ©rĂȘts individuels), ces choses non prĂ©-vues, Ă©tant prĂ©cisĂ©ment constitutives du commun, ou de lâespace public »[108]. - Exacerbation de la fracture numĂ©rique, car les outils de data mining offrent Ă quelques entreprises un accĂšs croissant et presque instantanĂ© Ă des milliards de donnĂ©es et de documents numĂ©risĂ©s. Pour ceux qui savent utiliser ces donnĂ©es, et avec certaines limites, elles offrent aussi une certaine capacitĂ© Ă produire, trier ou distinguer des informations jugĂ©es stratĂ©giques, permettant alors aussi de retenir ou au contraire de libĂ©rer avant dâautres certaines informations stratĂ©giques[109]. Cet accĂšs trĂšs privilĂ©giĂ© et peu transparent Ă l'information peut favoriser des situations de conflits d'intĂ©rĂȘt ou des dĂ©lits d'initiĂ©s. Il existe un risque d'inĂ©galitĂ©s croissante face aux donnĂ©es et au pouvoir que l'on a sur elles : Manovich distingue ainsi 3 catĂ©gories dâacteurs, fonciĂšrement inĂ©gaux face Ă la donnĂ©e : « ceux qui crĂ©ent les donnĂ©es (que ce soit consciemment ou en laissant des traces numĂ©riques), ceux qui ont les moyens de les recueillir, et ceux qui ont la compĂ©tence de les analyser »(2011) .
Ces derniers sont en faible nombre, mais trĂšs privilĂ©giĂ©s (ils sont souvent employĂ©s par les entreprises et autres entitĂ©s du big data et ont donc le meilleur accĂšs Ă la donnĂ©e; ils contribuent Ă produire ou orienter les rĂšgles qui vont les encadrer et cadrer lâexploitation des big data. Des inĂ©galitĂ©s institutionnelles sont a priori inĂ©luctables mais elles peuvent ĂȘtre minimisĂ©es et devraient au moins ĂȘtre Ă©tudiĂ©es, car elles orientent les donnĂ©es et les types de recherches et applications qui en dĂ©couleront. - Monopole exclusif ou commercial de certains jeux de mĂ©gadonnĂ©es collectĂ©es par quelques grandes entreprises (GAFA) ou par les outils publics ou secrets de grands Ătats et leurs services de surveillance et collecte de donnĂ©es mondialisĂ©s(ex. : PRISM pour la NSA) visant à « capter le rĂ©el pour l'influencer »[20]) ; une Ă©norme quantitĂ© de donnĂ©es est discrĂštement (et la plupart du temps lĂ©galement) collectĂ©e par des entreprises spĂ©cialisĂ©es ou des agences dâĂtat ou de renseignement, dont les discussions et Ă©changes, les comportements dâachat et les centres dâintĂ©rĂȘt sur lâInternet de tous les groupes et dâindividus. Ces donnĂ©es sont stockĂ©es, et parfois piratĂ©es (Ainsi, en 2003, lors d'une recherche de failles de sĂ©curitĂ© la sociĂ©tĂ© Acxiom, l'un des principaux courtiers en donnĂ©es s'est rendu compte que 1,6 milliard d'enregistrements de consommateurs avaient Ă©tĂ© piratĂ©s via 137 attaques informatiques faites de janvier Ă juillet 2003 ; les informations volĂ©es incluaient des noms, adresses et des adresses e-mail de plusieurs millions d'AmĂ©ricains[110] - [111] - [112] - [113]). Ces donnĂ©es sont ensuite plus ou moins mises Ă jour, et Ă©ventuellement louĂ©es ou vendues pour le marketing et la publicitĂ© ciblĂ©e, des Ă©tudes scientifiques des organismes de sondage, des groupes dâinfluence ou des partis politiques (qui peuvent ainsi plus facilement contacter leurs Ă©lecteurs potentiels), etc. Les personnes dont les donnĂ©es circulent ainsi nâen sont gĂ©nĂ©ralement pas informĂ©es, nâont pas donnĂ© de consentement Ă©clairĂ© et peuvent difficilement vĂ©rifier ces donnĂ©es ou surtout les retirer des bases de donnĂ©es qui les conservent pour une durĂ©e potentiellement illimitĂ©e. Des risques de production dâerreur et de mauvais usages existent (dans le domaine des assurances et prĂȘts bancaires par exemple). Jusqu'Ă 80 % des donnĂ©es personnelles mondiales seraient dĂ©tenues par quatre grands acteurs amĂ©ricains du Web que sont les GAFA[114].
- DĂ©rives Ă©thiques, dĂ©jĂ constatĂ©es dans la partie grise ou sombre[115] de lâinternet, y compris dans les grands rĂ©seaux sociaux (dont Facebook et Twitter, qui collectent un grand nombre de donnĂ©es et informations sur leurs utilisateurs et les rĂ©seaux dans lesquels ils sâinscrivent[116] - [117]) ; Dâautres invitent Ă lâadoption de bonnes pratiques[118] et de rĂšgles Ă©thiques plus strictes pour le data mining[119] et la gestion de ces mĂ©gadonnĂ©es[120] - [121].
Notamment depuis les rĂ©vĂ©lations du lanceur d'alerte amĂ©ricain Edward Snowden[122], certains sâinquiĂštent de voir outre une surveillance de plus en plus invasive (voire pervasive[123]) de nos activitĂ©s par les fournisseurs dâaccĂšs Ă Internet[124], puis fleurir des lĂ©gislations facilitant (sous prĂ©texte de facilitĂ©s Ă©conomiques et/ou de sĂ©curitĂ© nationale) lâusage dâoutils de traçage (via les cartes de paiement, cartes de fidĂ©litĂ©, cartes de santĂ©, cartes de transport, cartes de pointage, les systĂšmes de videosurveillance, certains smartgrids ou outils domotiques, certains objets connectĂ©s gĂ©olocalisant leur propriĂ©taire, etc.). Certaines de ces lĂ©gislations facilitent ou lĂ©gitiment explicitement les Ă©coutes Ă©lectroniques (Ă©coute et analyse de conversations tĂ©lĂ©phoniques ; interception et analyse dâemails et de rĂ©seaux) et le suivi gĂ©nĂ©ral des activitĂ©s sur le Net, ce qui leur semble ĂȘtre un contexte pouvant prĂ©parer une surveillance orweillienne gĂ©nĂ©ralisĂ©e des individus. Ces auteurs dĂ©noncent lâapparition de processus et dâun contexte de plus en plus orweillien[23] intrinsĂšquement difficiles Ă contrĂŽler, et insistent sur lâimportance de la protection de la vie privĂ©e[125], « mĂȘme quand on n'a rien Ă cacher »[126] - [127] ou (comme B. Schneier en 2008[128] ou Culnan & Williams en 2009[129]) rappellent que les notions de sĂ©curitĂ© et de protection de la vie privĂ©e et dâautonomie de lâindividu ne sont pas opposĂ©es. - Influence aux groupes de pressions des industriels qui participent au dĂ©veloppement des techniques de captation et d'usage de multiples donnĂ©es en utilisant des concepts de ville intelligente et de ville sĂ»re plus socialement acceptĂ©s.
- Cybersécurité : Les données d'une entreprise comptent parmi les actifs plus importants d'une entreprise, explique Lambert Sonna Momo en 2014[130]. Depuis, la question des données privées de tout à chacun, stockées de maniÚre massive, fait réguliÚrement l'objet de débats sur les sujets d'éthique et de respect de la sphÚre privée.
Critiques
La Commissaire europĂ©enne Ă la Concurrence, Margrethe Vestager, a considĂ©rĂ© auprĂšs du Wall Street Journal que les grandes sociĂ©tĂ©s pouvaient utiliser des masses gigantesques de donnĂ©es dâutilisateurs pour entraver la concurrence[131].
Dans un rapport du CIB (ComitĂ© International de BioĂ©thique) sur les mĂ©gadonnĂ©es et la santĂ©, publiĂ© en 2015, il mentionne que « Lâenthousiasme suscitĂ© par le phĂ©nomĂšne des mĂ©gadonnĂ©es risque dâentraĂźner des surĂ©stimations et des prĂ©visions irrĂ©alistes »[132]. Cela peut « mener Ă un dĂ©sĂ©quilibre des prioritĂ©s en termes de politiques de santĂ©, notamment dans les pays oĂč l'accĂšs Ă ces services essentiels n'est pas garanti ». En conclusion de la proposition 45, le CIB prĂ©cise qu'« Il est par consĂ©quent essentiel de gĂ©rer avec bon sens lâoptimisme suscitĂ© par ce phĂ©nomĂšne ».
Gouvernance et mégadonnées
La gouvernance des donnĂ©es peut se faire au niveau des entreprises, dans l'objectif de gĂ©rer efficacement leurs donnĂ©es; et aussi des Ă©tats, pour rĂ©guler le bon usage des donnĂ©es. Elle nĂ©cessite un dĂ©bat citoyen constant[133] ainsi que des modes de gouvernance et de surveillance adaptĂ©s[134] car des Ătats, des groupes ou des entreprises ayant des accĂšs privilĂ©giĂ©s au big data peuvent en extraire trĂšs rapidement un grand nombre de « donnĂ©es personnelles diffuses » qui, par croisement et analyse, permettent un profilage de plus en plus prĂ©cis, intrusif et parfois illĂ©gal (faisant fi de la protection de la vie privĂ©e) des individus, des groupes, des entreprises, et en particulier de leur statut social, culturel, religieux ou professionnel (exemple du programme PRISM de la NSA), de leurs activitĂ©s personnelles, leurs habitudes de dĂ©placement, dâachat et de consommation, ou encore de leur santĂ©. Cette question renvoie directement Ă la DĂ©claration Universelle des droits de l'Homme qui indique, dans l'article 12, que « Nul ne sera l'objet d'immixtions arbitraires dans sa vie privĂ©e, sa famille, son domicile ou sa correspondance, ni d'atteintes Ă son honneur et Ă sa rĂ©putation. Toute personne a droit Ă la protection de la loi contre de telles immixtions ou de telles atteintes »[135].« La montĂ©e des big data amĂšne aussi de grandes responsabilitĂ©s »[42]. En matiĂšre de santĂ© publique notamment, des enjeux Ă©thiques forts existent[136].
Sur la scĂšne europĂ©enne, un nouveau rĂšglement a Ă©tĂ© mis en place dans le courant de l'annĂ©e 2015 : le RGPD ou GDPR (General Data Protection Regulation). Il s'agit d'un rĂšglement qui modifie le cadre juridique relatif Ă la protection des donnĂ©es personnelles au sein de lâunion europĂ©enne. Le RGPD rappelle que toute personne physique devrait avoir le contrĂŽle de donnĂ©es Ă caractĂšre personnel la concernant. Toute opĂ©ration Ă©conomique se doit, de plus, d'ĂȘtre transparente, le rĂšglement en assure la sĂ©curitĂ© juridique (article 13). Enfin la protection des donnĂ©es personnelles est garantie par ce nouveau rĂšglement (article 17)[137].
Big data temps réel
Les plateformes big data sont conçues pour traiter une quantitĂ© de donnĂ©es massive, en revanche elles sont trĂšs rarement conçues pour traiter ces donnĂ©es en temps rĂ©el. Les nouveaux usages et les nouvelles technologies engendrent des donnĂ©es au quotidien et sans interruption, il est donc nĂ©cessaire de faire Ă©voluer ces plateformes pour traiter les donnĂ©es temps rĂ©el afin de rĂ©pondre aux exigences mĂ©tiers qui demandent dâaller vers plus de rĂ©activitĂ© et de personnalisation. Câest la raison pour laquelle les architectures lambda et kappa ont vu le jour. Ces architectures permettent de prendre en compte les flux de donnĂ©es temps rĂ©el pour rĂ©pondre Ă ces nouvelles exigences[138].
Notes et références
- Prononciation en anglais standard retranscrite selon la norme API.
- [PDF] Commission générale de terminologie et de néologie, Journal officiel de la République française du [lire en ligne].
- « mégadonnées », Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le ).
- (en) Andrea De Mauro, Marco Greco et Michele Grimaldi, « A formal definition of Big Data based on its essential features », Library Review, vol. 65, no 3,â , p. 122â135 (ISSN 0024-2535, DOI 10.1108/LR-06-2015-0061, lire en ligne, consultĂ© le )
- « ConfĂ©rence : voyage au cĆur du Big Data », sur CEA/MĂ©diathĂšque, (consultĂ© le )
- (en) Cukier, K., & Mayer-Schoenberger, V. (2013). Rise of Big Data: How it's Changing the Way We Think about the World, The. Foreign Aff., 92, 28.
- « Quâest-ce que le Big Data ? », sur lebigdata.ma
- Les médias dans la moulinette du « big data », 6 janvier 2014, consulté 12 janvier 2014.
- Michel Cartier, « Le "Big Data" », sur 21e siÚcle
- (en)CSAIL Researchers to Teach MIT's First Online Professional Course on Big Data, Tackling the Challenges of Big Data, janvier 2014, consulté 2014-01-12
- Création au CollÚge de France d'une Chaire « Sciences des données » en 2018., college-de-france.fr.
- [PDF]Gouvernement français (2012) - Investissements dâavenir â Fonds national pour la sociĂ©tĂ© numĂ©rique, Appel Ă projets no 3 - Big Data.
- Big Data Paris, conférence-exposition, 20-21 mars 2012.
- (en) « The AI revolution in science », Science | AAAS,â (lire en ligne, consultĂ© le )
- Non accessible le 31 mars 2019, sur ibm.com
- Watters, Audrey, Visualize Big Data with Flowing Media, ReadWriteWeb. 15 avril 2010
- (en) The Worldâs Technological Capacity to Store, Communicate, and Compute Information tracking the global capacity of 60 analog and digital technologies during the period from 1986 to 2007
- (en) Gil Press, « A Very Short History Of Big Data », Forbes,â (lire en ligne, consultĂ© le )
- Gil Press (2013) « une trÚs courte histoire du big data » Forbes.com, daté du 5 mai 2013,
- Tréguier, V. (2014). « Mondes de données et imaginaires: vers un monde cybernétique » et Résumé ; Library and information sciences. 2014, [PDF], 53 p.
- Borkar, V. R., Carey, M. J., & Li, C. (2012). Big data platforms: what's next?. XRDS: Crossroads, The ACM Magazine for Students, 19(1), 44-49
- (en) Che, D., Safran, M., & Peng, Z. (2013, January). From big data to big data mining: challenges, issues, and opportunities. In Database Systems for Advanced Applications (p. 1-15). Springer Berlin Heidelberg
- Larsen, K. (2009). Orwellian state of security. Infosecurity, 6(6), 16-19 (résumé)
- (en) Sanders, E. (2001). Firms renew assault on privacy rules. Los Angeles Times C, 1.
- Boeth R (1970). The Assault on Privacy: Snoops, Bugs, Wiretaps, Dossiers, Data Bann Banks, and Specters of 1984. Newsweek, Incorporated.
- Miller, A. R. (1971). The assault on privacy: computers, data banks, and dossiers. University of Michigan Press.
- Arthur Miller (1975) "Assault on privacy" ; Psychiatric Opinion ; Vol 12(1), janvier 1975, 6-14.
- (en)Christie, G. C. (1971). The Right to Privacy and the Freedom to Know: A Comment on Professor Miller's" The Assault on Privacy". University of Pennsylvania Law Review, 970-991.
- (en) Froomkin, A. M. (2000). The death of privacy ? ; Stanford Law Review, 1461-1543.
- (en) Ernst M.L & Schwartz, A.U (1962) Privacy: The right to be let alone. New York: Macmillan.
- Askland, A. (2006). What, Me Worry? The Multi-Front Assault on Privacy. St. Louis University Public Law Review, 25(33), et résumé
- Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493 (Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493. résumé]).
- Warren, S. D., & Brandeis, L. D. (1890). The right to privacy. Harvard law review, 193-220.
- « Big Data Paris - les 11 & 12 mars prochains au Palais des CongrÚs », sur Big Data Paris 2019 (consulté le ).
- (en) Michael Minelli, Michele Chambers et Ambiga Dhiraj, Big Data, Big Analytics : Emerging Business Intelligence and Analytic Trends for Today's Businesses, Wiley, (ISBN 978-1-118-14760-3)
- (en) « Application Delivery Strategies » [PDF], sur blogs.gartner.com,
- « Les 3 V du Big Data : Volume, Vitesse et VariĂ©tĂ© », JDN,â (lire en ligne, consultĂ© le )
- (en-US) « Big Data Analytics | IBM Analytics », sur 01.ibm.com (consulté le )
- « LumiÚre sur⊠les 6V du Big Data », sur e-marketing.fr (consulté le )
- « Le Big data et la rÚgle des 5V », sur blogrecrutement.bpce.fr (consulté le )
- (en) Manovich L (2011) âTrending: The Promises and the Challenges of Big Social Dataâ, Debates in the Digital Humanities, ed M.K.Gold. The University of Minnesota Press, Minneapolis, MN.[15 juillet 2011].
- Big data : la nĂ©cessitĂ© dâun dĂ©bat (traduction collaborative dâun essai de Danah boyd et Kate Crawford prĂ©sentant âSix provocations au sujet du phĂ©nomĂšne des big dataâ, prĂ©sentĂ© lors du Symposium sur les dynamiques de lâinternet et de la sociĂ©tĂ© : âUne dĂ©cennie avec Internetâ, organisĂ© par lâOxford Internet Institute, le 21 septembre 2011), FING, Internet.Actu.Net
- « Ătude IDC-EMC, « Extracting value from chaos » », sponsorisĂ©e par EMC Gartner, citĂ©e par Delphine Cuny sous le titre « "Big data" : la nouvelle rĂ©volution », Virginia Rometty, La tribune, no 42, 29 mars au 4 avril 2013, p. 4
- « Infographie: Le big bang du big data », sur Statista Infographies (consulté le )
- « The Big Data rĂ©volution », Le journal, CNRS, no 28,â (lire en ligne).
- (en-US) Janet Wiener et Nathan Bronson, « Facebookâs Top Open Data Problems », sur Facebook Research, (consultĂ© le )
- (en) Shaun de Witt, Richard Sinclair, Andrew Sansum et Michael Wilson, « Managing Large Data Volumes from Scientific Facilities », ERCIM News,â (lire en ligne)
- « Big data : du concept Ă la mise en Ćuvre. Premiers bilans. », sur blog.dataraxy.com, (consultĂ© le )
- (en) Lee Gomes, « Data Analysis Is Creating New Business Opportunities », MIT Technology Review,â (lire en ligne, consultĂ© le )
- Pierre Brunelle, Déchiffrer le big data, Simplement : Acquérir les outils pour agir, de la réflexion à l'usage. (French Edition), Sceaux, Pierre Brunelle, , 129 p. (ISBN 978-1-5394-0933-5), p. 12
- (en-US) « IBM Understanding Big Data 2017/12/13 15:54:47 », sur www14.software.ibm.com, (consulté le )
- http://www.afdit.fr/media/pdf/27%20sept%202013/AFDIT%20BIG%20DATA%20Pierre%20Delort.pdf#13
- (en-US) « le Blog ANDSI » DSI Big Data », sur andsi.fr (consulté le )
- Pierre Delort, « Big Data car Low-Density Data ? La faible densitĂ© en information comme facteur discriminant », lesechos.fr,â (lire en ligne, consultĂ© le )
- Delort, Le Big Data, Paris, Presses Universitaires de France, , 128 p. (ISBN 978-2-13-065211-3, lire en ligne)
- http://www.ujf-grenoble.fr/recherche/college-des-ecoles-doctorales/les-formations-proposees/du-calcul-parallele-au-massivement-parallele--1442974.htm?RH=UJF
- http://www.oracle.com/technetwork/topics/entarch/articles/oea-big-data-guide-1522052.pdf
- Thierry LĂ©vy-AbĂ©gnoli, « Explosion des volumes de donnĂ©es : de nouvelles architectures sâimposent », ZDNet France,â (lire en ligne, consultĂ© le )
- http://www.fermigier.com/assets/pdf/bigdata-opensource.pdf
- « Conception et optimisation du Mobile Cloud Computing avec des plateformes virtuelles en réseau », sur lebigdata.ma,
- http://www.cs.ucsb.edu/~sudipto/edbt2011/CloudTutorialPart1.pptx
- https://www.hpc-lr.univ-montp2.fr/
- « Les supercalculateurs de Météo France », sur meteofrance.fr (consulté le )
- Alain Beuraud, « Le calcul intensif temps rĂ©el, un outil dĂ©cisif pour la performance dâun service mĂ©tĂ©orologique », sur https://jcad2019.sciencesconf.org
- (en) Michel Sumbul, « HDFS », sur http://whatsbigdata.be/hdfs, (consulté le )
- Voir Data virtualization (en).
- « Le Big Data dans la campagne présidentielle US », sur 123opendata.com (consulté le )
- Pierre Delort, « Big Data : un ADN utilisateur sĂ©quençable pour moins de 1000 $ », lesechos.fr,â (lire en ligne, consultĂ© le )
- « La sĂ©curitĂ© se met rĂ©solument au «Big Data» », LeMagIT,â (lire en ligne, consultĂ© le )
- (en-US) « Big data : lâexpĂ©rience client ultime ? », Tech Page One,â (lire en ligne, consultĂ© le )
- (en) « LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public. », CERN-Brochure-2010-006-Eng. LHC Brochure, English version., CERN (consulté le )
- (en) « LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers », CERN-Brochure-2008-001-Eng. LHC Guide, English version., CERN (consulté le )
- (en) Geoff Brumfiel, « High-energy physics: Down the petabyte highway », Nature, vol. 469,â , p. 282â83 (DOI 10.1038/469282a, lire en ligne).
- Data, data everywhere Information has gone from scarce to superabundant. That brings huge new benefits, says Kenneth Cukier (interviewed here)âbut also big headaches, The Economist, publiĂ© 25 fĂ©vrier 2010
- Delort Pierre (2014) ICCP Technology Foresight Forum "Harnessing data as a new source of growth: Big data analytics and policies, en ligne sur le site de l'OCDE, mis Ă jour 21 juillet 2014, PDF, 14 p
- Delort Pierre (2012), Big data, Association Nationale des DSI, PDF 12p
- (en) « NASA Goddard Introduces the NASA Center for Climate Simulation », sur nasa.gov (consulté le )
- Acclimatise (2017) Data philanthropy will drive climate resilient development ; Acclimatise News 27 novembre 2017 Development, Earth Observation & Climate Data
- Kirkpatrick, R. (2011). Data philanthropy: Public & private sector data Sharing for global resilience. UN Global Pulse, 16, 2011.
- Pawelke, A., & Tatevossian, A. R. (2013). Data philanthropy: Where are we now. United Nations Global Pulse Blog.
- Kshetri, N. (2014). The emerging role of Big Data in key development issues: Opportunities, challenges, and concerns. Big Data & Society, 1(2), 2053951714564227.
- (en) Taylor L (2016). The ethics of big data as a public good: which public ? Whose good ?. Phil. Trans. R. Soc. A, 374(2083), 2016012 rĂ©sumĂ© ; l'un des 15 thĂšmes traitĂ©s par âThe ethical impact of data scienceâ (2016).
- « Election américaine: «Big data», l'arme secrÚte d'Obama », sur 20minutes.fr (consulté le )
- « Le pouvoir du "Big data" : Obama premier Président élu grùce à sa maßtrise de traitement de données ? », sur Atlantico.fr (consulté le )
- « Dossier Big data (2/5) Barack Obama, premier président big data », sur InformatiqueNews.fr, (consulté le )
- The GovLab Index: The Data Universe, sur thegovlab.org, consulté le 31 mars 2019.
- (en) « Government IT News, Analysis, & Advice - InformationWeek », sur InformationWeek (consulté le ).
- 2012 Energy Summit sur le site de l'Ătat de l'Utah
- http://www.innovation2030.org/fr/
- (en) « Data, data everywhere », The Economist,â (lire en ligne, consultĂ© le )
- Non trouvé le 31 mars 2019, sur bayesia.com
- (en) « When the Art Is Watching You », sur Wall Street Journal,
- Schiermeier, Quirin (2016) Germany enlists machine learning to boost renewables revolution ; Grids struggle to cope with erratic nature of wind and solar power, 13 juillet 2016.
- Development of innovative weather and power forecast models for the grid integration of weather dependent energy sources, EWeLiNE, consulté 2016-07-14
- AurĂ©lie Dudezert, « Big Data : Mise en perspective et enjeux pour les entreprises », IngĂ©nierie des SystĂšmes dâInformation,â (lire en ligne)
- Viktor Mayer-Schönberger, « La rĂ©volution Big Data », Politique Ă©trangĂšre,â (lire en ligne)
- (en) Russom, Philip, « TDWI BEST PRACTICES REPORT Introduction to Big Data Analytics », TDWI Research,â (lire en ligne)
- http://ercim-news.ercim.eu/images/stories/EN89/EN89-web.pdf.
- (en) Christian Gout, Zoé Lambert et Dominique Apprato, Data approximation : mathematical modelling and numerical simulations, Paris, EDP Sciences, , 168 p. (ISBN 978-2-7598-2367-3)
- Infographie - lâexploitation des donnĂ©es clients Ă lâĂšre du Big Data, blog MARKESS International
- M. Hilbert, Big data for development: From information-to knowledge societies. SSRN 2205145, 2013.
- Bruce Schneier on the Hidden Battles to Collect Your Data and Control Your World et partie 2 et transcriptions écrites (en anglais), Democracy Now » (consulté 8 mai 2015).
- Webb, M., & Caron, C. (2015). Les nouveaux habits de Big Brother. Relations, (776), 14-17.
- (en) The Age of Big Data, article de STEVE LOHRFEB. Publié le 11, 2012 par le New-York Times
- (en) Danah Boyd et Kate Crawford, « CRITICAL QUESTIONS FOR BIG DATA », Information, Communication & Society, vol. 15, no 5,â , p. 662â679 (lire en ligne [PDF])
- Harding, S. (2010) « Feminism, science and the anti-Enlightenment critiques », in Women, knowledge and reality: explorations in feminist philosophy, eds A. Garry and M. Pearsall, Boston: Unwin Hyman, 298â320.
- Pucheu David, « L'altérité à l'épreuve de l'ubiquité informationnelle », HermÚs, La Revue 1/2014 (no 68), p. 115-122 Lien vers Cairn Info
- Antoinette Rouvroy. (2014). "Des donnĂ©es sans personne: le fĂ©tichisme de la donnĂ©e Ă caractĂšre personnel Ă l'Ă©preuve de l'idĂ©ologie des big data" Contribution en marge de l'Ătude annuelle du Conseil d'Ătat. Le numĂ©rique et les droits et libertĂ©s fondamentaux. (rĂ©sumĂ©)
- Schneier, B. (2011). Secrets and lies: digital security in a networked world. John Wiley & Sons
- (en) « Acxiom Hacker Gets Prison Sentence », DMN,â (lire en ligne, consultĂ© le )
- Appeals court: Stiff prison sentence in Acxiom data theft case stands ; Snipermail owner Scott Levine was sentenced to eight years in prison, consulté 2015-05-08
- en anglais : largest ever invasion and theft of personal data
- (en) John Leyden, « Acxiom database hacker jailed for 8 years », The Register,â (lire en ligne, consultĂ© le )
- reportage diffusé par Canal+ « Big Data : les nouveaux devins ».
- Morozov, E. (2012). The net delusion: The dark side of Internet freedom ; What Comes After Internet Utopia?. PublicAffairs, juin 2012
- Raynes-Goldie, K. (2010). Aliases, creeping, and wall cleaning: Understanding privacy in the age of Facebook. First Monday, 15(1).
- Hull, G., Lipford, H. R., & Latulipe, C. (2011). Contextual gaps: Privacy issues on Facebook. Ethics and information technology, 13(4), 289-302
- What Big Data Needs
- Ethical issues in data mining
- Ethics of Big Data.
- Ethical Questions around Big Data
- Jean-Paul DelĂ©age, « Avec Edward Snowden, l'homme sorti de l'ombre qui voulait Ă©clairer le monde ! », Ăcologie & politique 1/2014 (No 48), p. 5-12 URL : http://www.cairn.info/revue-ecologie-et-politique-2014-1-page-5.htm. ; DOI : 10.3917/ecopo.048.0005
- Michael, M. G., & Michael, K. (2009). Uberveillance: microchipping people and the assault on privacy. Faculty of Informatics-Papers, 711
- Ohm, P. (2009). The rise and fall of invasive ISP surveillance. University of Illinois Law Review, 30 aout 2008
- Tene, O., & Polonetsky, J. (2012). « Big data for all: Privacy and user control in the age of analyticsâ. Nw. J. Tech. & Intell. Prop., 11, xxvii
- Solove, D. J. (2011). Why privacy matters even if you have ânothing to hideâ. Chronicle of Higher Education, 15
- Solove, D. J. (2007). ['http://scholarship.law.gwu.edu/cgi/viewcontent.cgi?article=1159&context=faculty_publications I've Got Nothing to Hide' and Other Misunderstandings of Privacy]. San Diego law review, 44, 745.
- Schneier, B (2008). What our top spy doesnât get: Security and privacy arenât opposites. Wired. com.
- Culnan, M. J., & Williams, C. C. (2009). How ethics can enhance organizational privacy: lessons from the choicepoint and TJX data breaches. Mis Quarterly, 673-687 (résumé).
- Digital Business Africa, « Les donnĂ©es dâune entreprise comptent parmi les actifs les plus importants »,
- La commissaire en chef de la concurrence au sein de l'UE estime que les données massives affectent négativement la concurrence, sur developpez.com du 3 janvier 2018, consulté le 31 mars 2019.
- « Rapport du CIB sur les mĂ©gadonnĂ©es et la santĂ© », rapport scientifique,â (lire en ligne)
- Laurence Allard, Pierre Grosdemouge et Fred Pailler, « Big Data: la nĂ©cessitĂ© dâun dĂ©bat », sur blog du Monde, .
- Maxime Ouellet, André Mondoux, Marc Ménard, Maude Bonenfant et Fabien Richert, "Big Data", gouvernance et surveillance, Montréal, Université du Québec à Montréal, , 65 p. (ISBN 978-2-920752-11-5, lire en ligne).
- « Déclaration universelle des droits de l'Homme », sur textes.justice.gouv.fr, .
- Vayena, E., Salathé, M., Madoff, L. C., & Brownstein, J.S. (2015). Ethical challenges of big data in public health. PLoS computational biology, 11(2), e1003904
- « RĂGLEMENT DU PARLEMENT EUROPĂEN ET DU CONSEIL du 27 avril 2016 relatif Ă la protection des personnes physiques Ă l'Ă©gard du traitement des donnĂ©es Ă caractĂšre personnel et Ă la libre circulation de ces donnĂ©es », sur eur-lex.europa.eu, .
- « Architecture data temps rĂ©el, par oĂč commencer ? », sur nexworld.fr, (consultĂ© le )
Voir aussi
Articles connexes
Liens externes
- Notice dans un dictionnaire ou une encyclopédie généraliste :
- Ressource relative à la santé :
- Dossier sur la Big Data sur SAVOIRS-ENS les confĂ©rences de l'Ăcole normale supĂ©rieure.
- Le Big Data, c'est quoi ?, 5e épisode du documentaire d'Arte Do not track diffusé le 16 février 2016.
Bibliographie
- Big data Dossier spécial de la revue Pour la Science ; no 98 - Février - Mars 2018
- Le traitement BigData : du cloud computing à l'internet des objets Catalogue général de La BibliothÚque nationale de France ; n° FRBNF46933611 - Septembre - Octobre 2021