Tarifanwendungskontrolle in der Krankenversicherung: Wie sind Stichproben zu ziehen?

Krankenversicherer prüfen mit Stichproben, ob Leistungserbringer wie etwa Spitäler die festgelegten Tarife korrekt anwenden. Doch welche Anforderungen muss eine Stichprobenziehung erfüllen, um verlässliche Aussagen zu ermöglichen?
Christoph Thommen
  |  04. Februar 2025
  • Krankenversicherung
Krankenversicherer entdeckten Unstimmigkeiten bei der Abrechnung von Magnetresonanztomografien (MRI) eines Spitals. Der Fall landete vor Bundesgericht. (Keystone)

Auf einen Blick

  • Das Bundesgericht befasste sich 2024 mit der Frage, wie Stichproben bei der Tarifanwendungskontrolle gezogen werden müssen, damit verlässliche Aussagen für eine Gesamtheit von über 10 000 Rechnungen möglich sind.
  • Die minimale notwendige Stichprobengrösse, um eine verlässliche Aussage für eine Vielzahl von Rechnungen zu machen, wird durch die Methode, das Vertrauensniveau und die Sicherheitsmarge bestimmt.
  • Zu kleine Stichproben liefern unsichere Ergebnisse, während grosse Stichproben zu höheren Kosten ohne Zusatznutzen führen.

Nach welchen Kriterien muss man eine Stichprobe ziehen, damit daraus eine verlässliche Aussage für über 10 000 Rechnungen gemacht werden kann? Mit dieser Frage sah sich das Bundesgericht im Frühling 2024 im Rahmen eines Urteils zur Kontrolle der Tarifanwendung in der Krankenversicherung konfrontiert. Es hatte eine Klage von Krankenversicherern zu prüfen, welche bei der Abrechnung von Magnetresonanztomografie-Tarifpositionen Unstimmigkeiten entdeckt hatten.

Konkret hatte ein Spital die Tarifposition «MRI Gesichtsschädel/Nasennebenhöhlen» 35-mal so häufig abgerechnet wie noch zwei Jahre zuvor. Eine genauere Analyse ergab, dass das Spital dabei bei mehr als 10 000 Rechnungen jeweils neben der Tarifposition «MRI Gesichtsschädel/Nasennebenhöhlen» auch die Position «MRI Gehirnschädel» abgerechnet hatte.

In der Folge liessen die Krankenversicherer eine Stichprobe von 40 anonymisierten Rechnungen der Jahre 2016 bis 2018 prüfen, bei denen das Spital beide MRI-Tarifpositionen abgerechnet hatte. Bei 36 der untersuchten Fälle bestätigte die Vorinstanz – das Schiedsgericht in Sozialversicherungssachen des Kantons Basel-Stadt – den Verdacht der Falschanwendung des Tarifs.

Das Bundesgericht äusserte zwar grundsätzliche Zweifel daran, dass 40 Rechnungen für eine Gesamtheit von über 10 000 Rechnungen eine genügende Aussagekraft haben, ging aber nicht genauer auf die statistische Fragestellung ein. In diesem Beitrag versuche ich daher diese Lücke zu schliessen und die folgende Frage zu klären: Wie muss eine Stichprobe gezogen werden, damit Krankenversicherer mit genügend grosser statistischer Sicherheit eine potenzielle Tariffalschanwendung nachweisen oder verwerfen und einen Rückforderungsbetrag quantifizieren können?

Tarifanwendungskontrolle in zwei Schritten

Die nachgelagerte Kontrolle der Tarifanwendung durch die Krankenversicherer erfolgt grundsätzlich in zwei Schritten: In einem ersten Schritt analysieren die Versicherer ausgewählte Tarifpositionen und Leistungserbringer und suchen Auffälligkeiten, die auf eine Tariffalschanwendung hindeuten. Im zweiten Schritt prüfen die Vertrauensärztinnen und -ärzte der Krankenversicherer die ausgewählten Fälle einzeln.

Da es aufgrund beschränkter Ressourcen unmöglich ist, 10 000 Rechnungen einzeln zu prüfen, wird in einer solchen Situation auf die Erkenntnisse der Statistik zurückgegriffen. Diese hat Verfahren entwickelt, mit denen auf Basis einer Teilmenge von Rechnungen (einer sogenannten Stichprobe) Schlüsse für eine Gesamtheit von Rechnungen (eine sogenannte Grundgesamtheit) gezogen werden können (siehe Abbildung).

Wahl der besten Methode

Aus statistischer Sicht gilt zunächst: Die Methode für die Stichprobenziehung soll so gewählt werden, dass zuverlässige Aussagen für die Grundgesamtheit gemacht werden können. In vielen Zusammenhängen wird hier auch von einer repräsentativen Stichprobe gesprochen.

Bei der wichtigsten Methode, der einfachen Zufallsstichprobe, werden Rechnungen zufällig ausgewählt. Dabei besitzen alle Rechnungen die gleiche Chance, in der Stichprobe zu landen. Es gibt viele Stichprobenziehungs-Methoden, die von diesem Grundsatz abweichen. Gründe dafür sind etwa, dass die Grösse der Grundgesamtheit nicht bekannt ist oder die Ziehung mit der einfachen Zufallsstichprobe mit viel höheren Kosten verbunden ist als eine alternative Methode. Im beschriebenen Beispiel haben wir jedoch erst mal keinen Grund, von der einfachen Zufallsstichprobe abzuweichen. So ist die Gesamtheit mit etwa 10 000 Rechnungen bekannt, zugänglich, und alle Rechnungen lassen sich in etwa zu gleichen Kosten untersuchen.

Eine oft verwendete Alternative ist die sogenannte Stratifizierung. Bei dieser Methode wird die Grundgesamtheit in Gruppen unterteilt, die in Bezug auf das interessierende Merkmal ähnlich sind. Die Stichprobe wird in der Folge für jede Gruppe proportional zur Gruppengrösse gezogen. Sind die Unterschiede bezüglich des interessierenden Merkmals zwischen den Gruppen gross und innerhalb der Gruppen klein, bietet die Stratifizierung den Vorteil, dass die Stichprobenunsicherheit reduziert werden kann. Das führt in der Folge automatisch zu einer geringeren minimalen Stichprobengrösse, mit der eine Aussage für die Grundgesamtheit gemacht werden kann.

In unserem Beispiel einer potenziellen Falschanwendung der beiden MRI-Tarifpositionen haben wir jedoch keine Informationen zu den Unterschieden zwischen oder innerhalb potenzieller Gruppen. Gleichzeitig ist davon auszugehen, dass die Durchführung eines MRI durch die vorprogrammierte Abfolge der Bildgebung am Gerät standardisiert ist und dadurch die Rechnungen insgesamt äusserst ähnlich (oder homogen) sind. Es ist deshalb wenig sinnvoll, für eine statistisch zweifelsfreie Bestimmung der Tariffalschanwendung vor Gericht eine stratifizierte Stichprobe von Rechnungen zu ziehen.

Bestimmung der Stichprobengrösse

Um eine belastbare Aussage zur Grundgesamtheit zu machen, spielen bei der Stichprobenziehung neben der eingesetzten Methode weitere Abwägungen hinsichtlich der Stichprobengrösse eine Rolle. Ist diese zu klein, kann bei der Prüfung einzelner Rechnungen keine verlässliche Aussage für die Gesamtheit an Rechnungen gemacht werden. Eine zu grosse Stichprobe führt zu hohen Kosten für die Überprüfung, ohne dass dafür die Belastbarkeit der Schätzung entscheidend ansteigt.

Nachdem die Methode zur Stichprobenziehung festgelegt worden ist, kann die minimal notwendige Stichprobengrösse für eine belastbare Aussage zur Grundgesamtheit durch die Bestimmung von zwei Grössen hergeleitet werden.

Die erste Grösse ist das sogenannte Vertrauensniveau. Dieses gibt an, wie sicher man sich ist, dass eine Schätzung korrekt ist. Je höher das Vertrauensniveau ist, desto höher ist die Sicherheit, dass die Schätzung korrekt ist. In Forschung und Praxis hat sich die Konvention durchgesetzt, das Vertrauensniveau bei 95 Prozent anzusetzen.

Die zweite Grösse ist die sogenannte Sicherheitsmarge. Auch bei einer systematisch falschen Tarifanwendung kann es vorkommen, dass Tarifpositionen in einzelnen Fällen korrekt abgerechnet wurden. Um solche Fälle zu berücksichtigen, gehen die Krankenversicherer in der Praxis oft nicht von 100 Prozent falsch abgerechneten Rechnungen aus. Stattdessen nehmen sie beispielsweise an, dass bei weniger als 20 Prozent der Rechnungen der Tarif korrekt angewendet wurde. Die Sicherheitsmarge beträgt in diesem Beispiel entsprechend 20 Prozent. Bei dieser Sicherheitsmarge reduziert sich auch die Rückforderung der Versicherer um 20 Prozent des Werts der zu viel abgerechneten Tarifpositionen.

Aus statistischer Sicht gibt es für die Sicherheitsmarge keinen korrekten Wert oder eine Konvention. Das Office of Inspector General des US-Gesundheitsministeriums, welches die Überprüfung von Medicare-Rechnungen (Medicare ist eine staatliche Krankenversicherung in den USA) sicherstellt, empfiehlt aber eine Sicherheitsmarge von maximal 25 Prozent (Ekin 2019).

Wenn wir nun von einem Vertrauensniveau von 95 Prozent ausgehen, lässt sich die minimal notwendige Stichprobengrösse für die Prüfung einer Tariffalschanwendung bei 10 000 gleichartigen Rechnungen durch die Wahl der Sicherheitsmarge eindeutig bestimmen. Entspricht diese 10 Prozent, ist eine einfache Zufallsstichprobe von 97 Rechnungen erforderlich, bei 20 Prozent sind es 25 Rechnungen und bei 25 Prozent sind es nur 17 Rechnungen.

Die Erkenntnisse der Statistik ermöglichen es also, aus einer kleinen Zahl von Rechnungen Schlüsse für eine sehr grosse Menge von Rechnungen zu ziehen. Bezogen auf das erwähnte Bundesgerichtsurteil bedeutet das, dass 40 Rechnungen für eine Aussage zur Grundgesamtheit genügen. Notwendig ist dafür jedoch eine korrekt durchgeführte Stichprobenziehung gemäss einfacher Zufallsstichprobe. Das heisst, jede Rechnung muss die gleiche Ziehungswahrscheinlichkeit aufweisen.

Literaturverzeichnis

Ekin, Tahir (2019). Statistics and Health Care Fraud: How to Save Billions. Chapman and Hall/CRC.

Dr. rer. pol, Co-Leiter Gesundheitsökonomische Forschung, Winterthurer Institut für Gesundheitsökonomie, ZHAW
[javascript protected email address]