Deep learning o.b.v. digitale zorgdossiers is tot mislukken gedoemd

DeepDeze week viel mijn oog op een opmerkelijk publicatie over deep learning met behulp van computers op basis van elektronische medische dossiers. De research-engineer, Brian Kihoon Lee, werkzaam bij niet het minste bedrijf, namelijk het Google Brain Team, publiceerde op zijn persoonlijke website op 22 maart 2022 een artikel met de titel “Deep Learning on Electronic Medical Records is doomed to fail”. Lee somt op een zeer toegankelijk wijze een aantal punten op die bepalend zijn voor het mislukken van het toepassen van deep learning op elektronische zorgdossiers. Het toepassen van deep learning als onderdeel van kunstmatige intelligentie(artificial intelligence=AI) in de zorg is tegenwoordig een hot item. Lee legt heel duidelijk uit op welke gronden hij zijn conclusie trekt. Hij stipt een aantal structurele redenen aan voor de conclusie, verwoord in de titel van zijn artikel.

Begripsbepaling

Artifical Intelligence(AI) is de overkoepelende wetenschap die zich bezighoudt met het creëren van machines die een zekere vorm van intelligentie vertonen. Machine Learning is een onderdeel van AI dat zich toespitst op technieken waarmee computers kunnen bijleren op basis van ingevoerde data en patronen. Deep Learning is op zijn beurt de verzamelnaam voor een groep technieken voor zelfsturende Machine Learning, waarbij algoritmes zichzelf slimmer maken.

Oorzaken(1)

De auteur somt vijf oorzaken op:

  1. Het gegeven dat er veel verschillende zorginformatiesystemen bestaan. Deze slaan data vaak op totaal verschillende wijze op. Interoperabiliteit staat daarbij niet op de voorgrond. Het gebrek eraan is vaak onderdeel van het verdienmodel. Deep learning met data uit verschillende instellingen ondervindt daar veel hinder van.
  2. Slechte workflow binnen de onderscheiden systemen. Vaak bepalen directies en niet-zorgverleners van zorginstellingen hoe ze de systemen t.a.v. procedures, controles en bedrijfsgewoontes ingericht willen hebben. Daardoor zitten artsen en verpleegkundigen op de werkvloer frequent met een systeem dat de werkflow niet volgt. Onduidelijkheid waar men wat moet invullen is het gevolg met data ingevuld in onjuiste velden. Ik beschreef zoiets over ziekenhuisinformatiesysteem Epic in 2018. Door de ziekenhuis-specifieke aanpassingen komt bovendien de interoperabiliteit tussen zorgsystemen weer verder in het geding.

Oorzaken(2)

  1. Het ontwerp van zorginformatiesystemen kent vaak hele andere redenen dan het volgen van de zorg. Lee stelt dat die systemen in de eerste plaats er zijn om te factureren, in de tweede plaats voor het faciliteren van overheidsmaatregelen en pas in de allerlaatste plaats voor de zorgverlener.
  2. De betekenis van ingevulde datavelden is nogal eens geen afspiegeling van de werkelijkheid. Als in een dataveld geen waarde staat of een nul kan het zijn dat de patiënt niet ziek genoeg was om de zorgverlener te bewegen dat veld in te vullen. Als voorbeeld haalt Lee aan dat een zuurstofsaturatie van 0 in een dossier vaak niet betekent dat de patiënt geen zuurstof in zijn bloed heeft en dus dood moet zijn. Het kan gewoon zo zijn dat de verpleegkundige niets invulde omdat de patiënt er patent uit zag en geen saturatiemeting nodig was.

Oorzaken(3)

  1. Causaliteit van met Deep learning gevonden verbanden is vaak zeer moeilijk aan te tonen. Hierbij haalt Lee een casus aan waarbij uit een logistisch regressie onderzoek van zorgdata bleek dat een gemaakt baarmoederhals-uitstrijkje een sterk negatieve correlatie had met het doorgemaakt hebben van hartfalen. Hij begreep dit niet tot hij zich realiseerde dat uitstrijkjes maar tot de leeftijd van 65 gemaakt worden en bij vrouwen het hartfalen zich meestal boven de 65 jaar manifesteert.

Toch enige hoop   

Lee geeft aan het eind van zijn artikel twee voorbeelden van onderzoeksterreinen waar deep learning niet dat soort belemmeringen ervaart. Als eerste noemt hij bijvoorbeeld de onderzoeken ten aanzien van hartritmestoornissen die plaats vinden met apparatuur zoals de Apple Smartwatch. Daarbij is de maker van de hard- en de software dezelfde en kent de onderzoeker de kwaliteit en kwantiteit van de data. In de tweede plaats noemt hij originele medische research waarbij sprake is van een sterke klinische en statistische expertise. Die klinische expertise is absoluut noodzakelijk om de juiste vragen te stellen, de input voor het datamodel correct op te zetten en de bevindingen te doorgronden. Daarna zal gedegen klinisch onderzoek nodig zijn om de ontdekking te valideren.

Moraal van dit verhaal: met alleen deep learning en zelflerende algoritmen ben je er niet. Je moet simpelweg kennis hebben over de kwaliteit van de data en kennis van het medische vak

W.J. Jongejan,

 Afbeelding van Ahmed Gad via Pixabay