Evaluatie van ketenzorg - statistische overwegingen
- onderdeel 2 van 2

Wetenschapsdag 2005
TNO Kwaliteit van Leven
Leiden, 6 oktober 2005
Gert Jacobusse
Voor het evalueren van een zorgketen moet in beeld gebracht worden hoe een patiënt de zorgketen ingaat en hoe hij er weer uitkomt. Het plaatje geeft op de horizontale as de situatie vooraf (de voormeting) en op de vertikale as de situatie na het doorlopen van de zorgketen (de nameting). De situatie vooraf hangt dus sterk samen met de situatie achteraf. Iemand die doodziek (een lage score) de zorgketen ingaat, komt er meestal niet kerngezond uit.

Het doel van de statistische analyse zal zijn, om het effect van een verandering in de zorgketen te schatten. De rode puntjes zijn patiënten die in de oude situatie zorg ontvingen. De groene puntjes zijn patiënten die na de verandering, in de nieuwe situatie, zorg ontvingen. De vraag is of patiënten onder de nieuwe situatie beter af zijn. In deze presentatie worden de voor- en nadelen van verschillende statistische technieken besproken.
Met een statistische techniek willen we erachter komen, wat het effect van vernieuwing van de zorg is. In dit geval is het werkelijke effect bekend, omdat de gegevens met een computer gesimuleerd zijn. De nieuwe situatie is beter dan de oude, en de grootte van het effect hangt kwadratisch af van de voormeting. Met name patiënten met middelmatige gezondheidsproblemen hebben een toegenomen gezondheidswinst ten opzichte van de oude situatie. Maar wanneer we gegevens verzameld hebben weten we dit dus niet. We hebben alleen de gegevens en niet het model. Op basis van de gegevens moet een uitspraak gedaan worden over het effect van de verandering.
De meest simpele aanpak is een vergelijking van de gemiddelde uitkomst op de nameting tussen de oude en de nieuwe situatie (de dikke lijnen). De gegevens worden dan samengevat in twee getallen: één gemiddelde voor de oude situatie en één gemiddelde voor de nieuwe situatie. Het verschil kan getoetst worden door middel van een t-toets, of wanneer de uitkomst binair is met een chi kwadraat toets.

Deze versimpeling heeft als voordeel dat hij heel makkelijk te begrijpen is. De gemiddelde uitkomst is één getal, en dat is beter geworden, óf niet. Twee bezwaren kleven aan deze aanpak: de statistische power (dat is de kans om een statistisch significant effect te vinden) is lager omdat het model voor alle patiënten onder de oude of nieuwe situatie dezelfde uitkomst schat. Ongeacht de situatie bij de voormeting, wordt het gemiddelde als de verwachte uitkomst beschouwd. Met deze grove benadering wordt informatie over de situatie vooraf buiten beschouwing gelaten. Behalve voor de power, is dit ook negatief voor het realiteitsgehalte van de analyse. De gemiddelde uitkomst is zo algemeen dat de ziekste en de gezondste patiënten allemaal op één hoop belanden.
Een flinke verbetering kan gemaakt worden door te corrigeren voor de voormeting. Bij het vergelijken van de uitkomsten wordt dan rekening gehouden met het niveau van de voormeting. Deze analyse kan gedaan worden met een gepaarde t-toets, een ANCOVA, of een logistische regressie analyse wanneer de uitkomst binair is.

Deze aanpak is nog steeds redelijk simpel, het model schat het verschil tussen de gemiddelden, én een lineair verband tussen voormeting en nameting. De statistische power is een stuk verbeterd doordat rekening gehouden wordt met de voormeting: De lijnen van het geschatte model liggen veel dichter bij de lijnen van het werkelijke model. Maar ook deze versimpeling heeft nog een groot nadeel. Het effect van de verandering (de afstand tussen de lijnen) wordt voor alle patiënten gelijk geschat, terwijl het effect in werkelijkheid afhangt van de score waarmee een patiënt de zorgketen ingegaan is.
Ook in een lineair model kan een effect geschat worden dat afhankelijk is van de voormeting. Hiertoe wordt een interactie tussen de voormeting en de zorgsituatie (oud of nieuw) aan het model toegevoegd.

Hoewel het geschatte effect nu verschilt tussen patiënten, is het model toch nog te simpel. Voor de patiënten links in het plot, met een lage score op te voormeting, schat het model het allergrootste effect, terwijl het effect hier in werkelijkheid weer lager is dan bij de patiënten met een wat hogere score op de voormeting.
Een heel andere aanpak is het exploratief verkennen van de grootte van het effect voor verschillende niveaus van de voormeting. De patiënten zijn hier ingedeeld in drie groepen, op basis van hun score op de voormeting. Binnen elk van de groepen wordt een verschil in gemiddelden getoetst door middel van een t-toets. In feite is deze aanpak gelijk aan de eerstgenoemde, maar nu worden de patiënten op drie hopen gegooid in plaats van op één hoop.

Deze aanpak is simpel, en geeft toch een wat completer beeld van het effect. Een nadeel van het maken van subgroepen is, dat de steekproefgrootte voor elk van de afzonderlijke toetsen kleiner is. Daar komt bij dat voor elke groep opnieuw een significantie toets gedaan wordt, zodat er sprake is van 'multiple testing'. Daardoor neemt de kans om onterecht een significant effect te vinden toe.
In plaats van drie groepen, kan natuurlijk ook een groter aantal groepen gemaakt worden. Voordeel is, dat het werkelijke model steeds dichter benaderd wordt. Maar het mag duidelijk zijn dat een enorm grote steekproef vereist is om voldoende power te hebben voor een dergelijke analyse. Een makkelijker alternatief is hier, om de computer te laten zoeken naar een niet-lineair verband in de data. Dat kan met Generalized Additive Models (GAM), een specialistische techniek die nu verder niet aan de orde komt.
De meest ideale analyse is die waarin het werkelijke model exact gespecificeerd wordt. In dit geval zou daarvoor het kwadraat van de voormeting als extra voorspeller aan een lineair model toegevoegd moeten worden.

Specificatie van het ware model geeft een maximale power, is simpel in de zin dat het model met weinig parameters omschreven wordt, en geeft een volledig beeld van de realiteit. Maar, om dit model te kunnen specificeren is een gerichte hypothese op basis van voorkennis nodig. In het geval van ketenzorg geldt vaak dat bij de meest zieke en de meest gezonde patiënten weinig tot geen winst behaald kan worden. Deze informatie is al aanleiding om eens naar een kwadratisch verband te kijken.
Een hypothese kan ook gesteld worden op basis van een eerdere exploratieve analyse. Wanneer er geen voorinformatie beschikbaar is, kan een exploratieve analyse gedaan worden op de helft van de verzamelde data. Binnen deze helft kan gezocht worden naar een maximaal passend model. Binnen de andere helft van de gegevens kan vervolgens het gevonden model getoetst worden. Waarom de data in twee helften verdelen?

Wanneer dezelfde data gebruikt worden om een model te zoeken en te toetsen, dan zal het gevonden model altijd opgaan: het is immers gemaakt op basis van dezelfde data. Wanneer een model getoetst wordt aan de hand van andere data, wordt nagegaan in hoeverre het model algemeen geldend is. Als het model niet goed past bij de andere data, dan is het waarschijnlijk beter om een simpeler model te gebruiken, dat minder steekproef afhankelijk is.
Bij het bedrijven van statistiek moet steeds een afweging gemaakt worden tussen simpele modellen en ingewikkelde modellen. Een simpel model heeft het voordeel dat het minder steefproef afhankelijk is. Er worden minder parameters geschat dan in een ingewikkeld model, zodat een relatief kleine steekproef voldoende is om de parameters betrouwbaar te schatten. Het voordeel van een ingewikkeld model is dat het een preciezere beschrijving van de werkelijkheid geeft, en daardoor beter in de praktijk bruikbaar is.

Om een model te kiezen zijn twee dingen heel belangrijk: ten eerste, goed nadenken over het probleem en hypotheses vormen over hoe de werkelijkheid in elkaar zit. Ten tweede, de data laten spreken, kijken naar plots en exploratieve analyses doen. Het doel is daarbij om een simpel model te vinden, dat toch goed de werkelijkheid beschrijft.