Bases de données d'Hippocrate

Un article de Wikipédia, l'encyclopédie libre.

Sommaire

[modifier] Introduction

Cette introduction parle de la protection de la vie privée - pour plus d'informations consultez l'article. Il s'agit de préserver les données privées des personnes. Rappelons que les lois, dans de nombreux pays, et l'autorégulation obligent les entreprises à considérer que les informations personnelles appartiennent à la personne et que l'entreprise en est simplement dépositaire. Les menaces sont nombreuses:

  • Indiscrétion de la part des employés. Par exemple, le DBA peut presque toujours consulter tout le contenu des bases; les utilisateurs avancés ont souvent un accès total à ces bases.
  • Failles du SI: par exemple, lors d'une erreur, le message peut laisser voir des données normalement privées.
  • Vols de données.
  • Vente de données dans un objectif de data mining.
  • Utilisation de ces données dans un but différent de ce qui était promis au départ.
  • ... et tant d'autres...

La problématique de protection de la vie privée impose deux notions principales:

  • Notification: l'utilisateur doit être notifié de la façon dont sont utilisées ses données.
  • Consentement: l'utilisateur consent à l'utilisation de ses données dans ce cas d'utilisation.

Prérequis: cet article fait appel à des connaissances en administration des bases de données.

[modifier] Description

[modifier] Définition

Une base de données peut s'appeler "d'Hippocrate" si deux exigences sont remplies:

  • le système hippocratique gère les préférences individuelles des utilisateurs. Par exemple, l'un acceptera que ses données soient utilisées pour faire des statistiques sur les groupes sanguins, l'autre pas.
  • le système hippocratique se couvre contre les accès illégaux de tous les acteurs du système: l'utilisateur de base ne peut pas voir des données des autres, pas plus que l'utilisateur avancé (par exemple le docteur, que l'on prend pour quelqu'un de sérieux et probe), ni le DBA, ni l'administrateur des systèmes (la personne de l'entreprise qui se charge de mettre configurer et monter les serveurs, et de gérer les applications sur ces serveurs), ni le directeur général... qui peut exercer son pouvoir sur les DBA pour exiger de voir certains enregistrements privés.
Deux exigences:
*Les préférences sont individuelles
*La protection est cohérente

[modifier] Premiers corollaires

  • La gestion hippocratique doit être gérée au cœur du SGBD et non dans un framework ou dans une couche supérieure. Ce n'est que par ce moyen que l'ont pourra appliquer une politique de confidentialité uniforme et cohérente contre tous les acteurs du système.
  • Il est nécessaire d'ajouter un contrôle du contexte: un chercheur en statistiques peut accéder à l'identité de ses sujets dans un certain contexte (vérifier leur honnêteté par exemple) et à la variable qu'ils ont accepté de fournir (s'il leur était arrivé de mentir à un juge par exemple) mais n'a pas de droit d'accès aux deux à la fois.
  • Il est nécessaire de récupérer les préférences des personnes. C'est là que les langages tels que EPAL et P3P deviennent utiles. Ces langages assurent la communication entre un serveur web et un client web (Mozilla par exemple) et assurent la fonction "notification et consentement" à l'utilisateur ("notice & consent"). Ils facilitent donc la transmission des préférences personnelles à la base de données.
    • P3P est un langage libre et créé en commun avec plusieurs acteurs de l'informatique.
    • EPAL est un langage d'IBM qui assure la communication jusqu'au Tivoli Privacy Manager, l'interface d'IBM pour la gestion de la sécurité dans DB2 (le SGBD d'IBM).
  • Il est nécessaire de procéder à des audits de sécurité. Ainsi, si un directeur oblige un DBA à livrer le contenu de sa base, ce qui restera toujours possible, les associations de consommateurs seront alertées en consultant les rapports d'audits de sécurité effectués par un tiers.

[modifier] Quelle différence avec la gestion des droits actuelle ?

La gestion des droits actuelle se base sur les définitions suivantes:

  • Utilisateurs
  • Rôles
  • Privilèges

Un utilisateur endosse plusieurs rôles. Par exemple un directeur commercial est un commercial (donc tous les droits des commerciaux en termes d'accès à leurs applications) et un directeur (donc des droits qu'ont tous les directeurs de l'entreprise sur la gestion de leurs employés, des finances, etc.). Chaque rôle est associé à un ensemble de privilèges. Par exemple, le commercial aura accès à tout son catalogue en termes de prix de vente, d'intéressement, etc. mais ne pourra pas voir les prix d'achat des mêmes produits.

Donc la différence entre une gestion des droits comme celle-ci, et une autre "d'Hippocrate" est que la seconde s'appuie sur:
*une gestion du contexte
*et une gestion ligne par ligne des préférences

[modifier] Ce que le concept "Hippocratique" permet

  • éviter que les personnes/applications accèdent à des données en dehors de leurs études justifiées.
  • permettre, lors de data mining et de revente de fichiers, d'éviter de tirer des données tellement personnelles qu'il soit possible de retrouver l'identité de la majorité des individus.
  • crédibiliser la gestion des données privées.

[modifier] Origine du nom

La notion a été principalemet inventée par Rakesh Agrawal, chercheur au centre d'Almaden d'IBM (Silicon Valley).

[modifier] Techniques et méthodes

[modifier] Proposition des chercheurs Rakesh Agrawal, Jerry Kiernan, Ramakrishnan Srikant et Yirong Xu

[modifier] Propositions actuelles des fournisseurs de SGBD

[modifier] Liens internes

  • Pour plus d'informations, consultez protection de la vie privée
  • le P3P et EPAL, qui permettent l'interface avec l'utilisateur en ce qui concerne les préférences de vie privée.

[modifier] Liens externes