Dès le préambule du règlement européen de protection des données[1], plane l’ombre des Big Data.
Bien sûr, toutes les données traitées dans les Big Data ne sont pas des données personnelles ; mais dès l’instant que ces données permettent d’identifier directement ou indirectement une personne, leur collecte, leur utilisation et leur transfert en dehors de l’UE doivent respecter un certain nombre de principes et de règles juridiques.
Or, à l’ère de l’ubiquité numérique[2], 70% des données sont générées par les utilisateurs.
Toute la philosophie du nouveau règlement vise à limiter que l’essor des nouvelles technologies sont susceptibles pour les droits et libertés des personnes, tout en encourageant la croissance et l’innovation.
Et cela s’explique d’abord par les caractéristiques des solutions et des traitements de Big Data dont la plupart concernent l’analyse prédictive et prescriptive à grande échelle.
Par défaut, les principes qui sous-tendent les traitements de Big Data sont aux antipodes des règles de protection des données
Avec le GDPR, les entreprises auront l’obligation de respecter un certain nombre de principes et de règles dont la violation sera passible de sanctions pouvant atteindre 4% du CA d’un groupe ou 20M€.
Ainsi les organisations devront appliquer des principes de minimisation, de transparence, de proportionnalité, de pertinence et d’exactitude des données ; elles devront aussi garantir les droits des personnes (ex. droit à l’oubli, droit à la portabilité) et la sécurité des données.
Mais la réalité est souvent bien différente.
Les plateformes de Big Data ont été conçues avec des objectifs de performance, de vitesse et de modularité, mais pas de sécurité.
Les Big Data se caractérisent par le volume et la variété des données : si l’informatique décisionnelle repose sur des traitements de données en nombre restreint avec une forte densité en information, la statistique inférentielle qui sert de fondement aux Big Data, traite au contraire, d’un gros volume de données avec peu d’informations pertinentes (maximisation de la collecte par défaut).
Les Big Data utilisent des sources de données multiples, plus ou moins maitrisées et plus ou moins sécurisées (cf. BYOD, Internet des objets).
Les résultats sont imprévisibles, font jouer une part de hasard et peuvent révéler des modèles et relations sans en donner la signification ; or cela ne signifie pas qu’il y ait une causalité.
La redondance des données sur de nombreuses solutions distribuées, décuple les sources de risques pour la sécurité des données et pour la sauvegarde des droits des personnes.
La vitesse des traitements souvent en temps réel ou quasi temps réel rend leur contrôle d’autant plus difficile.
Enfin, la logique, les conséquences et parfois l’existence même des traitements de Big Data se caractérisent par une certaine opacité, à l’opposé du principe démocratique de transparence.
Les plus optimistes diront que la route sera longue et pavée d’embûches ; les autres que cela relève d’une chimère et qu’il est déjà trop tard. Mais le pays des chimères n’est-il pas en ce monde le seul digne d’être habité[3]?
Les entreprises ont l’obligation d’analyser et de traiter les risques liés aux traitements de données personnelles
Les traitements de données relatifs aux personnes physiques situées dans l’espace européen doivent protéger les libertés, les droits et les principes reconnus par la Charte des droits fondamentaux de l’UE. Les organisations ont l’obligation de prendre les mesures pour limiter les risques sur la protection des données.
Dans son préambule, le GDPR donne une liste de risques associés aux traitements de données personnelles, à savoir lorsque le traitement peut donner lieu à :
- une discrimination;
- un vol ou une usurpation d’identité;
- une perte financière;
- une atteinte à la réputation;
- une perte de confidentialité de données protégées par le secret professionnel;
- un renversement non autorisé du processus de pseudonymisation;
- ou à tout autre dommage économique ou social important;
Ou si :
- les personnes concernées pourraient être privées de leurs droits et libertés ou empêchées d’exercer le contrôle sur leurs DCP;
- le traitement concerne des données à caractère personnel de catégories particulières;
- il s’agit d’un traitement de profilage,
- le traitement porte sur des données relatives à des personnes physiques vulnérables, en particulier les enfants;
- le traitement porte sur un volume important de données personnelles et touche un nombre important de personnes concernées.
Les limitations aux principes et aux droits des personnes par la législation nationale doivent aussi respecter la Charte et la Convention européenne de sauvegarde des droits de l’homme et des libertés fondamentales (1950)[4].
Selon que le traitement sera susceptible de générer des risques élevés, les entreprises devront mener une « analyse d’impact »
Le GDPR distingue les « risques » d’une part, et les « risques élevés » d’autre part, pour les droits et libertés des personnes physiques.
Lorsqu’un type de traitement, en particulier par le recours à de nouvelles technologies et compte tenu de la nature, de la portée, du contexte et des finalités du traitement, est susceptible d’engendrer un risque élevé, l’entreprise doit mener une analyse d’impacts relative à la protection des données.
L’analyse d’impact est en particulier, requise en cas de traitement automatisé portant sur l’évaluation systématique et approfondie d’aspects personnels concernant des personnes physiques, et sur la base de laquelle sont prises des décisions produisant des effets juridiques à l’égard d’une personne physique ou l’affectant de manière significative de façon similaire.
A titre d’exemple, cela devrait concerner le profilage et le scoring pour la gestion des risques (ex. credit scoring, prévention de la fraude, LAB-FT). A contrario, des traitements n’entrainant pas d’effets juridiques ou n’affectant pas les personnes de manière significative de façon similaire, ne devraient pas être concernés par cette disposition (ex. des traitements à des fins de statistiques).
L’analyse d’impact est également obligatoire en cas de traitement à grande échelle, soit de surveillance systématique d’une zone accessible au public soit de données sensibles. L’échelle du traitement s’évalue en fonction du nombre de personnes concernées, de la quantité de données et/ou de la variété des données traitées mais aussi de la permanence du traitement de données et de l’étendue géographique de l’activité de traitement.
Mais attention ; les autorités nationales de protection des données devront également dresser une liste des traitements devant faire l’objet d’une analyse d’impact avant leur mise en œuvre. Ainsi, en se référant à un premier projet publié par l’autorité belge[5] (CPVP), l’analyse d’impact serait nécessaire en cas de traitements de profilage de personnes physiques, et ce, sans autre référence aux prises de décisions avec effets juridiques.
L’analyse d’impact comprend a minima une description des traitements et une évaluation de la nécessité et de la proportionnalité du traitement, une analyse méthodique des risques sur la protection des données et les mesures juridiques, techniques et organisationnelles envisagées pour traiter les risques.
Pas d’avenir pour les Big Data sans « Privacy by Design[6]»
L’article 25 du GDPR impose au responsable de traitement de protéger les données dès la conception et par défaut. Le préambule indique que ce reponsable devrait également choisir des éditeurs de logiciels et des prestataires respectueux du « Privacy by Design ».
L’application de cette exigence dépend d’un certain nombre de considération, à savoir, l’état des connaissances, les coûts de mise en œuvre et la nature, la portée, le contexte et les finalités du traitement ainsi que les risques pour les droits et libertés des personnes physiques.
La Privacy by design se traduit notamment par un principe de minimisation dont l’objectif peut être atteint par l’utilisation de pseudonymes ; les techniques d’anonymisation telle que la dé-identification ou la confidentialité différentielle peuvent aussi être utilisées.
La Privacy by Design consiste aussi à faire respecter le principe de transparence, c’est à dire à la fois l’information de la personne (ex. Icones lisibles par la machine ; informations sur la logique qui sous-tend le profilage et les conséquences que cela entraine) et le fait de lui permettre de garder la maitrise sur ses données (ex. Accès à distance à un système sécurisé pour permettre à la personne accéder directement aux DCP ; utilisation de PIMS[7] et de plateformes de stockages de données personnelles[8]…).
La Privacy by Design vise à garantir par défaut et de bout en bout la sécurité des données personnelles (ex. analyse sur des données faisant l’objet d’un chiffrement homomorphe ; solutions permettant la validation des algorithmes et garantissant la fiabilité des résultats en favorisant les faux négatifs et la correction des faux positifs…).
Il s’agit aussi d’intégrer dans le traitement, les garanties nécessaires afin de protéger les droits de la personne (ex. mesures juridiques et techniques protégeant les données transmises à des sous-traitants situés en dehors de l’UE).
Et puis, la Privacy by design, c’est également l’intégration du principe d’accountability (ex. utilisation d’une solution de gestion des logs tamper-resistant).
Le GDPR offre un large champ d’opportunités aux acteurs européens du Big Data
Le sujet est complexe et les solutions en sont encore à l‘état de recherche. Les techniques de Privacy by Design ne sont pas toujours applicables à l’échelle des Big Data et au-delà du stade expérimental, les entreprises intègrent rarement la protection des données par défaut dans les solutions de Big Data.
En pratique la notion d’anonymisation «irréversible» est critiquée et jugée inefficace et non pertinente. Des chercheurs de l’INRIA proposent de faire évoluer la position du G29[9] sur ce sujet en distinguant les inférences «acceptables» i.e. qui sont bénéfiques à la personne de celles qui seraient «inacceptables».
Enfin, les entreprises sont confrontées à un certain nombre de contraintes liées aux coûts, au temps de préparation des données, aux ressources disponibles.
Tout cela est vrai, mais d’une part, la réglementation sur la protection des données est bel et bien là et il faudra faire avec, d’autre part, ni la loi ni la technologie ne pourront à elles seules garantir la protection de la vie privée.
L’heure est aux décisions stratégiques pour les acteurs des Big Data.
Remettre l’individu au centre des décisions, le sensibiliser, lui donner la maitrise de l’utilisation des données le concernant et lui permettre de bénéficier de l’utilisation de ses données : un modèle gagnant-gagnant que certains souhaiteraient voir évoluer vers ce qu’ils appellent la « Privacy by Using ». Voilà un beau challenge à relever et qui pourrait bien être le sésame indispensable pour conquérir le marché européen.
[1] Règlement 679/2016 aussi appelé GDPR
[2] M.Weiser définit l’ubiquité numérique comme une « technologie invisible à des utilisateurs avec lesquels elle entretient des interactions permanentes ».
[3] « Le pays des chimères est en ce monde le seul digne d’être habité. » Jean-Jacques Rousseau
[4] Droits à la dignité humaine; au respect de la vie privée et familiale; à l’intégrité (physique et psychologique) , à la liberté et à la sécurité des personnes.
[5] https://www.privacycommission.be/sites/privacycommission/files/documents/CO-AR-2016-004_FR.pdf
[6] La diffusion du concept de « Privacy by Design » revient à Ann Cavoukian (Ontario Canada) ; il est employé ici dans une acception générale recouvrant la notion de « data protection by design » prévue par le GDPR.
[7] PIMS : Personal Information Management System
[8] Personal data storage
[9] http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf