Kritische Analyse der Heinsberg-Studie

Detti04

The Count
Hi,

ich hab die Heinsberg-Studie jetzt mal (quer-)gelesen. Soll heissen: Ich hab sie nicht komplett von vorne nach hinten gelesen, sondern nur die Dinge, die mich interessieren; ausserdem gibt es Teile, die ich nicht verstehe, denn von Medizin und Biologie hab ich keine Ahnung. Dafuer hab ich umso genauer bei den Punkten geschaut, von denen ich eine Ahnung habe... Dabei habe ich so manche Punkte gefunden, die ich fuer kritikwuerdig halte und gleich im Einzelnen diskutieren werde. Im Wesentlichen lassen sie sich wie folgt aufteilen:

1. Sampling (also das Ziehen der Stichprobe)
2. Die Auswertung der Tests (hier bin ich aber als Laie z.T. auf duennem Eis unterwegs)
3. Berechung der IFR

Ich mache fuer jeden Punkt einen eigenen Beitrag auf.

EDIT: Aber erst noch der Download-Link zur Studie:

https://www.ukbonn.de/C12582D3002FD...on_fatality_rate_of_SARS_CoV_2_infection2.pdf
 
Zuletzt bearbeitet:

Detti04

The Count
1. Sampling

Im Paper wird das Sampling so beschrieben:
"[...] a sample of 600 persons aged older than 18 years was drawn from the civil register. Sampling was done randomly under the side condition that all 600 persons had different surnames, as it was assumed that different surnames were likely to indicate different households. [...]"

Das ist wegen der Einschraenkung bei den Nachnamen schon mal keine Zufallsauswahl, aber das ignoriere ich jetzt einfach mal, weil ich nicht weiss, in welcher Richtung man mit einer solchen Auswahl falsch liegt. Ausserdem ist dieser Fehler im Vergleich zu den noch folgenden vermutlich klein.

Von den 600 angeschriebenen Haushalten haben 407 geantwortet, und es nahmen letztlich 405 Haushalte an der Untersuchung teil. Hier haben wir schon das erste Problem, denn es ist zu erwarten, dass diejenigen, die glauben, infiziert zu sein oder gewesen zu sein, in dieser Gruppe von 405 Teilnehmern ueberrepraesentiert sind. Das ist aber vermutlich ein grundsaetzliches Problem bei freiwilliger Teilnahme an einer Studie: Diejenigen, die die Studie fuer wichtig halten, sind ueberrepraesentiert. Wir koennen also erwarten, dass der Prozentsatz der Infizierten unter diesen 405 Teilnehmern groesser ist als in der Gesamtbevoelkerung.

Anschliessend wurden aus diesen 405 Haushalten 514 weitere Teilnehmer gewonnen. In der Studie selbst wird gezeigt, dass die Infektionswahrscheinlichkeit steigt, wenn im Haushalt schon jemand infiziert ist: Das heisst also, dass die Zahl der Infizierten in dieser Gruppe wieder ueberrepraesntiert ist.

Im Resultat haben wir also eine Stichprobe von 919 Studienteilnehmern, von der wir erwarten koennen, dass (vormals) Infizierte ueberrepraesentiert sind. Und jetzt kommt schon mein erster Kritikpunkt: Diese Erwartung wird von den Autoren der Studie an keiner Stelle erwaehnt. Sie verfahren auch in all ihren Rechnungen so, als gingen sie davon aus, dass ihre Stichprobe unproblematisch und repraesentativ fuer das gesamte Gangelt ist.
 

Detti04

The Count
2. Die Auswertung der Tests

Die Autoren untersuchen die Teilnehmer hinsichtlich zweier Kriterien. Zum einen wird mit einem Antivirus-Test untersucht, ob ein Teilnehmer aktuell mit dem Coronavirus infiziert ist; zum zweiten wird per Antikoerpertests untersucht, ob der Teilnehmer mit dem Coronavirus infiziert war. Fuer die Antikoerpertests werden zwei verschiedene Tests vewendet, zwischen denen die Korrelation gut zu sein scheint, und die Resultate werden bezueglich der Selektivitaet und Spezifizitaet der Tests angemessen korrigiert. Die Autoren finden dann:

- 13 Faelle, bei denen der Virustest positiv ist
- 87 Faelle, bei denen der Antikoerpertest positiv ist*
- 38 Faelle, bei denen sowohl der Virustest als auch der Antikoerpertest positiv sind*
---
-> Insgesamt 138 Faelle von aktuell und/oder vormals Infizierten

Und jetzt zum * (und damit fuer mich auf duennes Eis):
Es gibt also insgesamt 125 Faelle, bei denen der Antikoerpertest als positiv gewertet wurde. Was aber heisst positiv hier? Laut der Studie selbst:

"[...] In our study, infected included positives (ratio of 1.1 or higher, 91% positive in neutralization assay) and equivocal positives (ratio 0.8 to 1.1, 56% positive in neutralization assays). [...]"

Ich hab keine Ahnung, was die Satzteile in den Klammern bedeuten, finde es aber etwas merkwuerdig, dass eine Probe dann als infiziert klassifiziert wurde, wenn der Test "positive" oder "equivocal positive" war. Da ich nicht weiss, was "equivocal positive" bedeutet, hab ich gegoogelt, und kann den Term "equivocal positive" nicht finden. Dagegen finde ich, dass die Ergebnisse solcher Tests oft in den Kategorien "positive", "equivocal" und "negative" angegeben werden, und dass equivocal dann heisst, dass das Ergebnis uneindeutig ist. In Summe sieht das also fuer mich so aus, als haetten die Autoren hier alles als positiv gewertet, was nicht negativ war, was das genaue Gegenteil von wissenschaftlich vorsichtigem Vorgehen waere.

Im Zusatzmaterial zur Studie wird angegeben, dass der IgG-Test, welcher der verlaesslichere der beiden Antikoerpertests ist, mit folgenden Ergebnissen zurueckkam:

106 High
19 Intermediate
794 Normal

Die ersten beiden Zahlen addiern sich genau zu den 125 positiven Antikoerpertests, und die Kategorien "High" und "Intermediate" passen genau dazu, wie ich "positive" und "equivocal" verstehe. Soll heissen:

Ich halte es fuer vorstellbar, dass von 125 positiven Antikoerpertests nur 106 wirklich positiv waren, waehrend 19 weitere von anderen Forschern als uneindeutig gewertet worden waeren. Auch dieser Aspekt wird in der Studie nicht weiter diskutiert, sondern es werden die kompletten 125 (plus die 13 nur aktuell Infizierten) als Basis fuer alle Rechnungen verwendet.

Beide bisher erwaehnten Aspekte, also das Problem beim Sampling sowie die Auswertung der Antikoerpertests, fuehren dazu, dass saemtliche Fehler nur in eine Richtung gehen: Wenn in der Studie Fehler gemacht werden, dann so, dass die Zahl der Infizierten kuenstlich erhoeht ist.
 

Rupert

Friends call me Loretta
1. Sampling (...)

D' accord.

Fiel mir auch auf und ist auch genau einer der Kritikpunkte, dass das sozusagen dann auf Gangelt hochgerechnet wurde; schlimmer ist ja noch, dass das dann von anderen mal blitzschnell auf ganz Deutschland extrapoliert wurde was das für die Gesamtanzahl infizierter Menschen in Deutschland heisst.

Allerdings, und hier rudere ich dann echt zurück, weiß und verstehe ich auch nicht im Detail wie von der IFR dann auf die Dunkelziffer unter den infizierten Menschen geschlossen wurde.

Die berechnete IFR der Studie liegt desweiteren im Korridor der vorherigen Schätzung, wenn mich nicht alles täuscht, unterstützt diese also.
 

Detti04

The Count
3. Die Berechnung der IFR

In ihrer Stichprobe finden die Autoren unter 919 Teilnehmern 138 aktuell und/oder vormals Infizierte, was 15% der Teilnehmer entspricht. Durch Hochskalieren dieses Prozentsatzes auf Gangelts Gesamtbevoelkerung von 12.597 Einwohnern schaetzen die Autoren dann ab, dass es in ganz Gangelt 1892 aktuell und/oder vormals Infizierte gibt. Die IFR wird dann schlichtweg dadurch erhalten, dass man die Zahl der bis dahin bekannten Coronavirus-Todesfaelle (7) durch die Zahl der Infizierten teilt, womit man eine IFR von 7/1892 = 0,37% erhaelt.

Dieses Vorgehen ist natuerlich problematisch, weil die aktuell Infizierten mit ihrer Infektion ja noch nicht fertig sind und sich die Zahl der Todesfaelle aus dieser Kohorte noch erhoehen kann. Die Autoren diskutieren das auch kurz und verweisen darauf, dass es zum Zeitpunkt des Artikels einen 8. Todesfall gab, wodurch sich die IFR auf 0,42% erhoehen wuerde. (Inzwischen liegt Gangelt bei 9 Todesfaellen.) Letztendlich kommunzieren die Autoren aber "die IFR betraegt 0,37%" statt des richtigeren "die IFR betraegt mindestens 0,37%".

Noch besser waere es natuerlich, die IFR auf Basis aller abgeschlossenen Faelle zu berechnen, denn diese kennen die Autoren ja - schliesslich war das Finden der abgeschlossenen Faelle Sinn und Zweck dieser Studie. Wir wissen aus Teil 2), dass bei 87 Teilnehmern nur der Antikoerpertest positiv war, d.h. nur bei diesen ist die Coronavirus-Infektion beendet, was 9,5% der Teilnehmer der Studie entspricht. Das koennen wir jetzt wieder auf ganz Gangelt hochskalieren und kommen auf 1193 abgeschlossene Infektionen in ganz Gangelt. Somit landen wir bei einer IFR von:

IFR = 7/1193 = 0,59%.

War das echt so schwer, liebe Autoren?
 
Zuletzt bearbeitet:

Detti04

The Count
Zusammenfassung:

Insgesamt sieht die Studie fuer mich wissenschaftlich ein bisschen schlampig aus. Genauer: Es werden relativ starke Aussagen getroffen, ohne moegliche Fehlerquellen zu diskutieren. Besonders auffaellig finde ich, dass alle Fehler in dieselbe Richtung gemacht werden, naemlich in Richtung von zu hohen Infektionsraten in der Stichprobe und damit einer zu niedrigen IFR. Da frag ich mich dann schon: Ist das geschlampt oder gewollt?

Um die Studie in zwei Saetzen zusammenzufassen:

In einer Untersuchung, in welcher die gemachten und moeglichen Fehler wahrscheinlich zu einer kuenstlich erhoehten Zahl von Erkrankten und damit zu einer kuenstlich erniedrigten IFR fuehrten, fand man in der Heinsberg-Studie eine IFR von 0,59%. Aus diesen Gruenden kann man ewarten, dass der erhaltene Wert eine untere Grenze fuer die tatsaechliche IFR darstellt.
 

KGBRUS

Gucken wat der Ball macht
Eine weitere Frage ist doch, wie viele der Untersuchten waren auf der Karnevalssitzung? Da ist ja der Hotspot in Gangelt gewesen. Das hat ja auch Auswirkungen auf die Infiziertenzahlen.


Wie Rupert schon schrieb, ein hochrechnen auf die BRD ist unmöglich, auch da Gangelt ein Hotspot war/ ist.
 

Gaudloth

Bratze
D' accord.

Fiel mir auch auf und ist auch genau einer der Kritikpunkte, dass das sozusagen dann auf Gangelt hochgerechnet wurde; schlimmer ist ja noch, dass das dann von anderen mal blitzschnell auf ganz Deutschland extrapoliert wurde was das für die Gesamtanzahl infizierter Menschen in Deutschland heisst.

Allerdings, und hier rudere ich dann echt zurück, weiß und verstehe ich auch nicht im Detail wie von der IFR dann auf die Dunkelziffer unter den infizierten Menschen geschlossen wurde.

Die berechnete IFR der Studie liegt desweiteren im Korridor der vorherigen Schätzung, wenn mich nicht alles täuscht, unterstützt diese also.

Das war wohl ein Problem der Journalisten, die da was nicht verstanden haben.

Man nahm die errechnete IFR und hielt die für repräsentativ für ganz Deutschland. Dann hat man einfach von der Todeszahl (ca 6600) zurückgerechnet, wieviele Menschen dann infiziert sein müssten.
 

Rupert

Friends call me Loretta
Das machen nicht nur die Journalisten; das machen auch die Studienautoren.

"Legt man für eine Hochrechnung etwa die Zahl von fast 6.700 SARS-CoV-2-assoziierten Todesfällen in Deutschland zugrunde, so ergäbe sich eine geschätzte Gesamtzahl von rund 1,8 Millionen Infizierten. Diese Dunkelziffer ist um den Faktor 10 größer als die Gesamtzahl der offiziell gemeldeten Fälle (162.496 am 03.05.2020, 07:20 Uhr)."

Quelle: Ergebnisse der „Heinsberg-Studie“ veröffentlicht — Universität Bonn
 

Gaudloth

Bratze
Eine weitere Frage ist doch, wie viele der Untersuchten waren auf der Karnevalssitzung? Da ist ja der Hotspot in Gangelt gewesen. Das hat ja auch Auswirkungen auf die Infiziertenzahlen.


Wie Rupert schon schrieb, ein hochrechnen auf die BRD ist unmöglich, auch da Gangelt ein Hotspot war/ ist.


Das ist richtig. Allerdings steht das in der Studie auch so drin, dass die Ergebnisse nur vergleichbar sind mit einer Region mit ähnlicher Bevölkerungsstruktur und im Zusammenhang mit einem Superspreadingevent.
Was aber meines Erachtens auch nicht stimmt.
Die Zahlen sind so klein. Gerade die Todeszahl von 7,8 oder 9 ist so gering, dass es da zu gewaltigen Schwankungen durch Ausreißer kommen kann.
 

Gaudloth

Bratze
Das machen nicht nur die Journalisten; das machen auch die Studienautoren.

"Legt man für eine Hochrechnung etwa die Zahl von fast 6.700 SARS-CoV-2-assoziierten Todesfällen in Deutschland zugrunde, so ergäbe sich eine geschätzte Gesamtzahl von rund 1,8 Millionen Infizierten. Diese Dunkelziffer ist um den Faktor 10 größer als die Gesamtzahl der offiziell gemeldeten Fälle (162.496 am 03.05.2020, 07:20 Uhr)."

Quelle: Ergebnisse der „Heinsberg-Studie“ veröffentlicht — Universität Bonn

Ok. Das ist echt bescheuert.
 

Rupert

Friends call me Loretta
Für so bescheuert halte ich Herangehensweise nicht, denn das beschreiben die Autoren schon plausibel warum sie über die IFR auf die Anzahl der infizierten Menschen hochrechnen und sie schreiben auch in der Studie, dass die IFR in Gangelt nicht repräsentativ für andere Gebiete sein muss:

"While the number of infections in this high prevalence community is not representative for other parts of the world, the IFR calculated on the basis of the infection rate in this community can be utilized to estimate the percentage of infected based onthe number of reported fatalities in other places with similar population characteristics."
Quelle: Seite 2 der Studie unter Results

"It will be very important to determine the true average IFR for Germany. However, because of the currently low infection rate of approximately2% (estimated based on IFR), an ELISA with 99% specificity will not provide reliable data. Therefore, under the current non-superspreading conditions,it is more reasonable to determine the IFR in high prevalence hotspots such as Heinsberg county."
Quelle: Seite 13 der Studie in der Mitte

Was meines Erachtens ungeschickt ist, ist, dass das mit den 1,8 Millionen gleich so prominent herausgehoben wird, obwohl da die Unsicherheit recht hoch ist.
 

Gaudloth

Bratze
Versteh ich nicht. Die IFR ist nicht repräsentativ, aber ich rechne damit trotzdem mal hoch, wie die Dunkelziffer in ganz Deutschland ist?
Das ist keine Wissenschaft, das ist Raten.
 

Rupert

Friends call me Loretta
Kannste sehen wie Du willst; dann haben sie halt bei der Uni Bonn ein groß angelegtes Ratespiel gemacht Deiner Ansicht nach.
 

Gaudloth

Bratze
Ich finde da stehen schon interessante Sachen drin in der Studie. Aber die Hochrechnung auf die deutsche Gesamtbevölkerung ist eine unzulässige Schlussfolgerung. Natürlich meiner Ansicht nach.
 

KGBRUS

Gucken wat der Ball macht
Für die Sterblichkeitsrate kann man wohl sagen die liegt mindestens bei 0,59%. Wahrscheinlich höher.
 

Rupert

Friends call me Loretta
3. Die Berechnung der IFR (...)

Ich denke, dass sich die Autoren hier sehr an die Definition der IFR gehalten haben, die gemäß wikipedia folgende ist:
"The term infection fatality rate (IFR) also applies to infectious disease outbreaks, and represents the proportion of deaths among all the infected individuals."

Wobei ich mir nicht sicher bin, ob es ggf. nicht die Case Fatality Rate (CFR) auch sein könnte, wieder wikipedia:
"is the proportion of deaths from a certain disease compared to the total number of people diagnosed with the disease for a certain period of time."

Edit: Nö, sie sagen ja explizit, dass sie nicht die CFR heranziehen. Lesen hilft :)
 

Gaudloth

Bratze
Fiel mir auch auf und ist auch genau einer der Kritikpunkte, dass das sozusagen dann auf Gangelt hochgerechnet wurde; schlimmer ist ja noch, dass das dann von anderen mal blitzschnell auf ganz Deutschland extrapoliert wurde was das für die Gesamtanzahl infizierter Menschen in Deutschland heisst.

Warum ist das für dich eigentlich schlimm, aber nicht bescheuert?^^
 

Gaudloth

Bratze
3. Die Berechnung der IFR

In ihrer Stichprobe finden die Autoren unter 919 Teilnehmern 138 aktuell und/oder vormals Infizierte, was 15% der Teilnehmer entspricht. Durch Hochskalieren dieses Prozentsatzes auf Gangelts Gesamtbevoelkerung von 12.597 Einwohnern schaetzen die Autoren dann ab, dass es in ganz Gangelt 1892 aktuell und/oder vormals Infizierte gibt. Die IFR wird dann schlichtweg dadurch erhalten, dass man die Zahl der bis dahin bekannten Coronavirus-Todesfaelle (7) durch die Zahl der Infizierten teilt, womit man eine IFR von 7/1892 = 0,37% erhaelt.

Dieses Vorgehen ist natuerlich problematisch, weil die aktuell Infizierten mit ihrer Infektion ja noch nicht fertig sind und sich die Zahl der Todesfaelle aus dieser Kohorte noch erhoehen kann. Die Autoren diskutieren das auch kurz und verweisen darauf, dass es zum Zeitpunkt des Artikels einen 8. Todesfall gab, wodurch sich die IFR auf 0,42% erhoehen wuerde. (Inzwischen liegt Gangelt bei 9 Todesfaellen.) Letztendlich kommunzieren die Autoren aber "die IFR betraegt 0,38%" statt des richtigeren "die IFR betraegt mindestens 0,38%".

Noch besser waere es natuerlich, die IFR auf Basis aller abgeschlossenen Faelle zu berechnen, denn diese kennen die Autoren ja - schliesslich war das Finden der abgeschlossenen Faelle Sinn und Zweck dieser Studie. Wir wissen aus Teil 2), dass bei 87 Teilnehmern nur der Antikoerpertest positiv war, d.h. nur bei diesen ist die Coronavirus-Infektion beendet, was 9,5% der Teilnehmer der Studie entspricht. Das koennen wir jetzt wieder auf ganz Gangelt hochskalieren und kommen auf 1193 abgeschlossene Infektionen in ganz Gangelt. Somit landen wir bei einer IFR von:

IFR = 7/1193 = 0,59%.

War das echt so schwer, liebe Autoren?

Interessant. Ich hatte hauptsächlich den Abstract gelesen und dann nur überflogen. Wäre bei der eh shcon sehr geringen Zahl an Todesfällen, dann ziemlich schlampig gearbeitet, wenn man so eine Zahl dann in den Mittelpunkt stellt.
 

Rupert

Friends call me Loretta
Die Autoren verwenden schon die richtige Definition fuer die IFR, aber sie machen bei der Berechnung eben die von mir beschriebenen Fehler.

Das meinte ich ja, dass sich bzgl. Deines zweiten Punktes, des Heranziehens nur der abgeschlossenen Fälle, drüber wohl diskutieren lässt, ob nur die abgeschlossenen Fälle herangezogen werden sollten. Hab aber jetzt nicht durchgelesen was bzw. ob sie dazu was schreiben.
 

Detti04

The Count
Eine Zahl, bei der man im Zaehler nur abgeschlossene Faelle hat, im Nenner aber abgeschlossene und offene Faelle, kann nicht sehr aussagekraeftig sein. Solche Zahlen werden zwar dauernd berechnet, aber nur deshalb, weil man meist nichts anderes hat. Grundsaetzlich sollte die IFR wohl fuer eine Kohorte von Erkrankten berechnet werden, denke ich, d.h. man muesste bei einer Kohorte so lange warten, bis bei allen die Krankheit abgeschlossen ist.

In vielen anderen Faellen behilft man sich mit einem Zeitfenster, d.h. man berechnet die prozentuale Sterblichkeit pro Zeiteinheit. Das kann aber nur dann funktionieren, wenn waehrend dieser Periode genausoviele Krankheiten beendet werden wie Neuinfizierte dazukommen. Diese Situation ist bei einem Ausbruch aber natuerlich nicht gegeben.*


* Genauer: Wenn der Ausbruch abflaut, koennte man grundsaetzlich ein passendes Zeitfenster finden, welches durch eine Kombination von ansteigendem und abflauenden Ausbruch genau diese Situation ergibt. Dieser Zeitraum waere aber nicht konstant, soll heissen: Wenn beispielsweise der komplette April ein passendes Zeitfenster dargestellt haette, dann taete das der naechste Monat garantiert nicht mehr.
 

Detti04

The Count
Eine weitere Frage ist doch, wie viele der Untersuchten waren auf der Karnevalssitzung? Da ist ja der Hotspot in Gangelt gewesen. Das hat ja auch Auswirkungen auf die Infiziertenzahlen.
[...]
Darueber berichten die Autoren auch. Der Fragebogen enthielt u.a. die Frage "Haben Sie Karneval gefeiert?" (oder so aehnlich, in der englischen Veroeffentlichung steht "Have you celebrated carnival?"), wobei sich das aber explizit nicht nur auf die Kappensitzung beschraenkt. 45,5% der Studienteilnehmer haben diese Frage mit "Ja" beantwortet. Ob Karnevalsteilnehmer damit nun ueberrepraesentiert sind, weiss ich nicht.

Die Autoren geben auch an, dass die Infektionsrate unter den Karnevalisten hoeher war als unter den Nicht-Karnevalisten und dass die Karnevalisten im Schnitt mehr Krankheitssymptome gezeigt haben.

EDIT: Als Nachtrag: Man liest, dass die Kappensitzung 300 Teilnehmer hatte, was etwa 2,4% der Bevoelkerung Gangelts entspricht. Wenn die Stichprobe in dieser Hinsicht repraesentativ ist, dann sollten in ihr nur 22 Teilnehmer der Kappensitzung enthalten sein.
 
Zuletzt bearbeitet:

Holgy

Kommischer Foggel Fußballromantiker
Moderator
1. Sampling

Im Paper wird das Sampling so beschrieben:
"[...] a sample of 600 persons aged older than 18 years was drawn from the civil register. Sampling was done randomly under the side condition that all 600 persons had different surnames, as it was assumed that different surnames were likely to indicate different households. [...]"

Das ist wegen der Einschraenkung bei den Nachnamen schon mal keine Zufallsauswahl, aber das ignoriere ich jetzt einfach mal, weil ich nicht weiss, in welcher Richtung man mit einer solchen Auswahl falsch liegt. Ausserdem ist dieser Fehler im Vergleich zu den noch folgenden vermutlich klein.

Von den 600 angeschriebenen Haushalten haben 407 geantwortet, und es nahmen letztlich 405 Haushalte an der Untersuchung teil. Hier haben wir schon das erste Problem, denn es ist zu erwarten, dass diejenigen, die glauben, infiziert zu sein oder gewesen zu sein, in dieser Gruppe von 405 Teilnehmern ueberrepraesentiert sind. Das ist aber vermutlich ein grundsaetzliches Problem bei freiwilliger Teilnahme an einer Studie: Diejenigen, die die Studie fuer wichtig halten, sind ueberrepraesentiert. Wir koennen also erwarten, dass der Prozentsatz der Infizierten unter diesen 405 Teilnehmern groesser ist als in der Gesamtbevoelkerung.

Anschliessend wurden aus diesen 405 Haushalten 514 weitere Teilnehmer gewonnen. In der Studie selbst wird gezeigt, dass die Infektionswahrscheinlichkeit steigt, wenn im Haushalt schon jemand infiziert ist: Das heisst also, dass die Zahl der Infizierten in dieser Gruppe wieder ueberrepraesntiert ist.

Im Resultat haben wir also eine Stichprobe von 919 Studienteilnehmern, von der wir erwarten koennen, dass (vormals) Infizierte ueberrepraesentiert sind. Und jetzt kommt schon mein erster Kritikpunkt: Diese Erwartung wird von den Autoren der Studie an keiner Stelle erwaehnt. Sie verfahren auch in all ihren Rechnungen so, als gingen sie davon aus, dass ihre Stichprobe unproblematisch und repraesentativ fuer das gesamte Gangelt ist.

Ich finde nicht, dass das ein überzeugendes Argument ist. Ich würde sogar sagen, dass Infizierte bei so einer Studie eher nicht mitmachen, weil es ihnen peinlich ist, weil die KH stigmatisierend ist, weil sie andere Probleme (mit der KH haben) und daher nicht zusätzlich auch noch bei so einer Studie mitmachen wollen usw. Jedenfalls ist das bei solchen medizinischen Studien üblicherweise der Fall.

405 von 600 mitmachen ist eine eher gute Quote. edit: Zumal die Samplegröße ja auch noch deutlich über der notwendigen Anzahl von 300 liegt.
 
Zuletzt bearbeitet:

Detti04

The Count
Was soll am Coronavirus stigmatisierend sein? Du kannst Dich ja selber fragen, bei welchem der folgenden beiden Szenarien Du eher bei der Untersuchung mitgemacht haettest:

a) Du hast ordentlich Karneval gefeiert. Ausserdem ging es Dir vor zwei Wochen fuer ein paar Tage nicht so gut.
b) Karneval findest Du bloed, und Du warst in den letzten paar Wochen meist zuhause. An Husten oder Kopfschmerzen kannst Du Dich nicht erinnern.
 

Detti04

The Count
[...]
405 von 600 mitmachen ist eine eher gute Quote. edit: Zumal die Samplegröße ja auch noch deutlich über der notwendigen Anzahl von 300 liegt.
Die Groesse einer Stichprobe ist ziemlich irrelevant, wenn die Stichprobe nicht repraesentativ ist. Um genau zu sein: Die Stichprobengroesse ist fuer das Konfidenzintervall von Bedeutung, macht den Punktschaetzer aber nicht richtiger. Oder anders: Grosse, aber nicht repraesentative Stichproben liefern sehr praezise einen falschen Wert, waehrend kleine, aber repraesentative Stichproben sehr unpraezise einen im Mittel richtigen Wert liefern.
 
Zuletzt bearbeitet:

Holgy

Kommischer Foggel Fußballromantiker
Moderator
Das machen nicht nur die Journalisten; das machen auch die Studienautoren.

"Legt man für eine Hochrechnung etwa die Zahl von fast 6.700 SARS-CoV-2-assoziierten Todesfällen in Deutschland zugrunde, so ergäbe sich eine geschätzte Gesamtzahl von rund 1,8 Millionen Infizierten. Diese Dunkelziffer ist um den Faktor 10 größer als die Gesamtzahl der offiziell gemeldeten Fälle (162.496 am 03.05.2020, 07:20 Uhr)."

Quelle: Ergebnisse der „Heinsberg-Studie“ veröffentlicht — Universität Bonn

Das ist ja auch kein Problem. Wenn der IFR stimmt (Anteil der Toten an allen Infizierten) und die Anzahl der Toten (6700) kann man die Zahl der Infizierten errechnen. Das ist auch völlig unabhängig davon ob es in Heinsberg überdurchschnittlich viele oder wenig Infizierte gibt. Wenn wir wissen, wie viele in Heinsberg infiziert sind und wie viele Covid-19-Tote wir hatten, dann haben wir den IFR.

Was soll am Coronavirus stigmatisierend sein?

Fast alle Krankheiten sind stigmatisierend. Aus Fremd- und Eigenansicht. Manche sehen die Kranken als Gefahr, als Sündenbock, als Aussätzige, usw. Manche fühlen sich schuldig, in ihrem Selbstbild zerstört, usw. Das ist ein allgemein bekanntes Phänomen und trifft auf sehr viele Krankheiten (in unterschiedlichem Maße) zu. Daher verheimlichen viele ihre Krankheit wieder. Und nehmen eher nicht an Studien o. ä. teil.

Übrigens schreiben die Autoren selber, dass akut Infizierte in ihrer Stichprobe unterrepräsentiert sind: Furthermore, in our study, the number of reported PCR positives (2.39%) was lower than in the overall population (3.08%) of this high-prevalence community. This indicates that infected individuals may be underrepresented in our study population. Although this is plausible (no response to study request due to illness, hospital, ICU, already known infection status,etc.)... (page 11)

Die Groesse einer Stichprobe ist ziemlich irrelevant, wenn die Stichprobe nicht repraesentativ ist. Um genau zu sein: Die Stichprobengroesse ist fuer das Konfidenzintervall von Bedeutung, macht den Punktschaetzer aber nicht richtiger. Oder anders: Grosse, aber nicht repraesentative Stichproben liefern sehr praezise einen falschen Wert, waehrend kleine, aber repraesentative Stichproben sehr unpraezise einen im Mittel richtigen Wert liefern.

Und wieso sollte die Stichprobe nicht repräsentativ sein? Die Verhinderung von Dopplungen von Namen sollte ja bspw. verhindern, dass gleiche Familien gezogen werden, was viel eher zu einer Verzerrung der Ergebnisse geführt hätte. Das mehr infizierte an eine Studie mitmachen als nichtinfizierte stimmt ebenfalls nicht.
 
Zuletzt bearbeitet:

Gaudloth

Bratze
Das ist ja auch kein Problem. Wenn der IFR stimmt (Anteil der Toten an allen Infizierten) und die Anzahl der Toten (6700) kann man die Zahl der Infizierten errechnen. Das ist auch völlig unabhängig davon ob es in Heinsberg überdurchschnittlich viele oder wenig Infizierte gibt. Wenn wir wissen, wie viele in Heinsberg infiziert sind und wie viele Covid-19-Tote wir hatten, dann haben wir den IFR.

Wenn der IFR stimmt. Der stimmt ja ziemlich sicher nicht. Selbst wenn die Studie super gut gemacht ist, sind die Infizierten in Heinsberg ja nicht repräsentativ für ganz Deutschland. Der Altersdurchschnitt ist nicht repräsentativ und auch der Gesundheitsstand nicht. Wenn man davon ausgeht, dass das vorallem vom Karneval ausging, werden bestimmte Bevölkerungsgruppen über und andere unterrepräsentiert sein.
 

Gaudloth

Bratze
Die Groesse einer Stichprobe ist ziemlich irrelevant, wenn die Stichprobe nicht repraesentativ ist. Um genau zu sein: Die Stichprobengroesse ist fuer das Konfidenzintervall von Bedeutung, macht den Punktschaetzer aber nicht richtiger. Oder anders: Grosse, aber nicht repraesentative Stichproben liefern sehr praezise einen falschen Wert, waehrend kleine, aber repraesentative Stichproben sehr unpraezise einen im Mittel richtigen Wert liefern.

Große Stichproben filtern vorallem Nicht-systematische Fehler besser raus, während sie systematische Fehler gar nicht rausfiltern. Es gibt ja immer Fehler in Studien, systematische und nicht-systematische. Das lässt sich auch nicht verhindern, nur minimieren. Wurde aber auch nicht minimiert in diesem Fall. Wobei mir der Fehler beim Sampling hinnehmbar erscheint, weil es schwer sein dürfte für eine kurzfristig erstellte Studie, das besser hinzubekommen.
 

Holgy

Kommischer Foggel Fußballromantiker
Moderator
...Der Altersdurchschnitt ist nicht repräsentativ und auch der Gesundheitsstand nicht. ...

Ich habe mir gerade die Altersverteilung (Grafik in der verlinkten Veröffentlichung) angeschaut und die weicht kaum von der Altersverteilung Deutschlands ab.

Und wieso sollte der Gesundheitsstand in Heinsberg denn vom Rest Deutschlands abweichen? Welche Krankheit(en) ist da denn so besonders verbreitet?

Das Infektionsrisiko unterscheidt sich zudem nicht zwischen den Altersgruppen und auch Co-Morbiditäten sind nicht mit eine höheren Infektionsrisiko verbunden. (page 11)
 
Zuletzt bearbeitet:
Oben