Données françaises de santé : La forfaiture du « petit marquis » d’O

Les données françaises de santé, qu’elles proviennent de la Sécurité sociale, du système hospitalier ou du fichier des causes médicales des décès, sont pour l’instant utilisées essentiellement à des fins administratives ou budgétaires. Mais comme le montre déjà certaines expérimentations et recherches, leurs exploitations informatiques généralisées à des fins médicales pourraient amener d’importants progrès thérapeutiques.

Cependant ce trésor national de données, quasi unique au monde pour leur qualité, excite bien des convoitises de la part de l’industrie pharmaceutique mais aussi des GAFAM (Google, Apple, Facebook, Amazon, Microsoft), des assurances, des banques, et voire des directions des ressources humaines.

Suite aux préconisations du rapport Villani sur l’intelligence artificielle et son corolaire le « big data » (1), la loi de juillet 2019 relative à la transformation du système de santé incluait la création d’une « plateforme de données de santé » rassemblant l’ensemble de celles-ci à partir du « Système national des données de santé » créé par la loi de janvier 2016. Il s’agit des informations de santé des 67 millions de Français incluant entre autres les données cliniques recueillies par les soignants, les pharmaciens, les centres hospitaliers : dates d’entrée et de sortie, diagnostic, traitements administrés, résultats d’examens complémentaires, comptes rendus médicaux, génomique et imagerie médicale,…

Outre un débat réel questionnant la nécessité et le danger de regrouper toutes les données de santé sur une plateforme unique, la constitution de cette plateforme aurait pu être l’occasion d’une coopération fructueuse et d’avenir entre soignants, informaticiens, chercheurs des différentes institutions de santé publique, entreprises (2) et organismes (3) de recherche français travaillant dans les domaines de l’intelligence artificielle, du « Cloud » (4), de la sécurité informatique et des supercalculateurs, avec bien sûr le contrôle de la CNIL (5) et de l’ANSSI (6). On aurait pu, par exemple, s’appuyer sur des plateformes existantes comme Teralab, développée au sein d’un institut de recherche de Mines Télécom, qui peut stocker et analyser de très grandes quantités de données. Ses machines sont à Douai et fonctionnent grâce à des logiciels libres, l’équipe technique est à Rennes et le reste à Paris et elle héberge déjà des données de santé.

Malheureusement, à partir de la loi de juillet 2019, c’est tout le contraire d’une telle démarche qui se mit en place sous la houlette de Cédric O, sous-ministre au numérique et obscur petit marquis de la macronie. La plateforme fut baptisée « Health Data Hub » : tout un programme en soi. Un consortium public-privé nageant dans le conflit d’intérêts fut institué afin de mettre en œuvre la plateforme et proposer les prestataires « techniques » pour la réaliser et l’héberger. Ainsi, le principal architecte du « Health Data Hub », le haut fonctionnaire Jean-Aubert (7), vient de rejoindre la société étatsunienne Iqvia qui est le plus gros marchand de données de santé du monde.

Malgré les très fortes réserves de la CNIL et de l’ANSSI, et en dehors de tout appel d’offre propre à tout marché public, Cédric O a imposé Microsoft comme maître-d’œuvre de la plateforme des données de santé de 67 millions de Français, c’est-à-dire l’hébergement mais aussi les outils logiciels d’analyse et de traitement des données.

Interpellé par le Sénat sur ce choix de confier les données de santé des Français à Microsoft, Cédric O osait se justifier ainsi : « Nous avions le choix entre prendre une solution française, et l’évaluation technique était très claire, qui ne nous permettait pas, et je le regrette, de faire les recherches scientifiques que nous souhaitions faire sur les données de santé (…) Étant donné le retard européen dans le Cloud, nous n’avions pas la possibilité de faire tourner des algorithmes d’intelligence artificielle aussi développés sur une infrastructure française que sur une infrastructure américaine. »

À cet énorme mensonge de Cédric O, la société française « OVH », spécialisée en Cloud et concurrente en la matière de Microsoft, répliquait par la voix de son créateur Octave Klaba : « Comment dire qu’on est « pas capable » alors qu’il n’y a toujours aucun cahier de charge ? Vous avez fini par décrire ce dont vous avez besoin ? [... ] Pas de cahier de charge. Pas d’appel d’offres. Le POC (8) avec Microsoft qui se transforme en solution imposée. Tout ceci à la limite je m’en fous. Mais de là à dire que l’écosystème qu’on représente est incapable de proposer mieux et moins cher, c’est non ! »

Pour défendre sa décision, Cédric O argue que les données seront anonymisées, chiffrées et stockées sur les centres de données de Microsoft en Hollande, donc en théorie sous le régime du règlement européen de protection des données. Il s’agit d’un triple mensonge.

En effet, les données ne seront pas anonymisées mais pseudonymisées, c’est-à-dire qu’on remplace les nom, prénom, numéro de sécurité sociale… d’une personne par un identifiant verrouillé par une clé de cryptage. Or, une étude de l’université de Louvain et de l’Impérial Collège de Londres a montré que sur les données de santé pseudonymisées des États-Unis, il suffisait d’accéder à trois variables pour ré-identifier 83 % des personnes. Le chiffrage des données n’offre aucune garantie de sécurité par rapport à Microsoft car cette entreprise ne se contente pas d’héberger les données, elle en assure l’analyse et le traitement et à donc accès aux clefs de déchiffrement comme l’a révélé l’analyse du Conseil d’État (9). Enfin l’hébergement aux Pays-Bas ne garantit rien car Microsoft étant une société américaine, elle est soumise au Cloud Act des États-Unis qui permet aux autorités des États-Unis d’accéder aux données gérées par une entreprise sur le territoire américain comme à l’étranger en vertu de l’extra-territorialité de la loi américaine. Notons de plus que la Cour de justice de l’Union européenne a annulé le 16 juillet l’accord de protection juridique des transferts de données personnelles entre les États-Unis et l’Europe.

Poursuivant sa fuite en avant au bénéfice de l’entreprise de Seattle, et passant une nouvelle fois outre l’avis de la CNIL, Cédric O, avec son complice Olivier Véran, a profité du régime d’état d’urgence sanitaire en mai pour faire transférer les données du nouveau fichier relatif aux individus infectés par la Covid-19 à Microsoft sans le consentement des personnes concernées.

Cette forfaiture au profit de Microsoft montre le peu de crédit que l’on peut accorder à la communication de Macron et de son gouvernement sur une relocalisation des productions stratégiques de santé. La réalité est loin de la fiction du discours macronien : On paye avec l’argent public le M de GAFAM pour exploiter les données de santé de notre pays.

Heureusement la résistance s’organise, plusieurs associations de soignants, d’informaticiens, de chercheurs, de partisans du logiciel comme InterHop (10), des syndicats s’opposent à cette trahison du gouvernement et proposent des alternatives. Pour sa part, le PCF soutient toutes ces actions et considère qu’un grand service public des données de santé associant expertises des soignants, organismes de recherche public et entreprises nationales, assis sur une renaissance industrielle de notre pays, est nécessaire et qu’il participerait à la construction d’une souveraineté numérique de la France dans le cadre de coopérations européennes et internationales. µ

Yann Le Pollotec, responsable de la commission Révolution numérique du PCF.

----------------------------------------------------------------

1. En effet le fonctionnement d’un algorithme d’intelligence artificielle nécessite de gigantesques jeux de données et inversement les masses de données que constitue le big data impliquent pour être exploitées des algorithmes d’intelligence artificielle.

2. OVH, Dassault système, Atos…

3. L'Institut national de recherche en informatique et en automatique (INRIA) par exemple.

4. Un serveur Cloud, ou serveur nuage en français, est une infrastructure informatique physique ou virtuelle puissante en réseau qui mutualise des capacités de calcul et de stockage et qui exécute des applications et stocke des données.

5. Commission nationale informatique et liberté.

6. Agence nationale de la sécurité des systèmes d’information.

7. https://www.lemonde.fr/planete/article/2019/12/24/donnees-de-sante-conflit-d-interets-au-c-ur-de-la-nouvelle-plate-forme_6023918_3244.html

8. POC : La preuve de concept (proof of concept) désigne le fait d'avoir des preuves tangibles qu'un produit ou service potentiel peut fonctionner.

9. https://www.conseil-etat.fr/ressources/decisions-contentieuses/dernieres-decisions-importantes/conseil-d-etat-19-juin-2020-plateforme-health-data-hub

10. https://interhop.org/nous/