Artikel

8.4: Median und IQR

8.4: Median und IQR



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

8.4: Median und IQR

8.4: Median und IQR

Denken Sie daran, dass wir bei der Beschreibung der Verteilung einer quantitativen Variablen das Gesamtmuster (Form, Mitte und Streuung) in den Daten und Abweichungen vom Muster (Ausreißer) beschreiben. In “Distributions for Quantitative Data” und “Measures of Center” haben wir uns auf die Beschreibung der Form und des Zentrums einer Verteilung konzentriert. Wir haben auch untersucht, wie die Form unsere Wahl der Mittelmaße beeinflusst. In “Variabilität relativ zum Median quantifizieren” und Quantifizieren der Variabilität relativ zum Mittelwert” konzentrieren wir uns darauf, die Streuung einer Verteilung genauer zu beschreiben.

Wir beginnen mit der Beschreibung der Streuung um den Median.

Beispiel


Ausreißer und Tukey-Zäune:

Wenn eine Stichprobe keine Ausreißer enthält, werden Mittelwert und Standardabweichung verwendet, um einen typischen Wert bzw. die Variabilität in der Stichprobe zusammenzufassen. Wenn eine Stichprobe Ausreißer aufweist, werden der Median und der Interquartilsabstand verwendet, um einen typischen Wert bzw. die Variabilität in der Stichprobe zusammenzufassen.

Es gibt mehrere Methoden, um Ausreißer in einer Stichprobe zu bestimmen. Eine sehr beliebte Methode basiert auf folgendem:

Ausreißer sind Werte unter Q1-1,5 (Q3-Q1) oder höher Q3+1,5(Q3-Q1) oder äquivalent, Werte unter Q1-1,5 IQR oder höher Q3+1,5 IQR.

Diese werden als Tukey-Zäune bezeichnet. 6 Für die diastolischen Blutdruckwerte beträgt die Untergrenze 64 – 1,5 (77 – 64) = 44,5 und die Obergrenze 77 + 1,5 (77 – 64) = 96,5. Die diastolischen Blutdruckwerte reichen von 62 bis 81. Daher gibt es keine Ausreißer. Die beste Zusammenfassung eines typischen diastolischen Blutdrucks ist der Mittelwert (hier 71,3) und die beste Zusammenfassung der Variabilität ist die Standardabweichung (s=7,2).

Tabelle 13 zeigt die Mittelwerte, Standardabweichungen, Mediane, Quartile und Interquartilbereiche für jede der kontinuierlichen Variablen in der Teilstichprobe von n=10 Teilnehmern, die an der siebten Untersuchung der Framingham Offspring Study teilnahmen.


Populationsparameter im Vergleich zu Stichprobenstatistiken

Ein beschreibendes Maß für eine gesamte Population ist ein ''Parameter''. Es gibt viele Populationsparameter, zum Beispiel ist die Populationsgröße (N) ein Parameter und der mittlere diastolische Blutdruck oder das mittlere Körpergewicht einer Population wäre andere Parameter, die sich auf kontinuierliche Variablen beziehen. Andere Populationsparameter konzentrieren sich auf diskrete Variablen, wie den Prozentsatz der aktuellen Raucher in der Bevölkerung oder den Prozentsatz von Menschen mit Typ-2-Diabetes mellitus. Auch gesundheitsbezogene Verhaltensweisen lassen sich so denken, wie etwa der Anteil der Bevölkerung, der sich jedes Jahr gegen die Grippe impfen lässt oder der Anteil, der beim Autofahren routinemäßig angeschnallt ist.

Es ist jedoch im Allgemeinen nicht möglich, Parameter direkt zu messen, da dazu Informationen von allen Mitgliedern der Bevölkerung gesammelt werden müssen. Wir nehmen daher Stichproben aus der Bevölkerung, und die beschreibenden Maße für eine Stichprobe werden als „Stichprobenstatistik“ oder einfach „Statistik“ bezeichnet. Zum Beispiel der mittlere diastolische Blutdruck, das mittlere Körpergewicht und der Prozentsatz der Raucher in einer Stichprobe aus der Bevölkerung wäre Stichprobenstatistik. In der Abbildung unten beträgt der wahre mittlere diastolische Blutdruck für die Bevölkerung von Erwachsenen in Massachusetts 78 Millimeter Quecksilber (mm Hg). Dies ist ein Bevölkerungsparameter. Das Bild zeigt auch den mittleren diastolischen Blutdruck in drei getrennten Proben. Diese Mittelwerte sind Stichprobenstatistiken, die wir verwenden könnten, um den Parameter für die gesamte Population zu schätzen. Beachten Sie jedoch, dass die Stichprobenstatistiken alle ein wenig unterschiedlich sind und keine von ihnen genau die Stichprobe als Populationsparameter ist.

Um einige Grundlagen zu veranschaulichen, betrachten wir eine sehr kleine Stichprobe mit den Daten in der folgenden Tabelle.

Tabelle - Datenwerte für eine kleine Stichprobe

Beachten Sie, dass die Datentabelle kontinuierliche Variablen (Alter, Verweildauer im Krankenhaus, Body-Mass-Index) und diskrete Variablen enthält, die dichotom sind (Typ-2-Diabetes und aktuelles Rauchen). Konzentrieren wir uns zunächst auf die kontinuierlichen Variablen, die wir zusammenfassen, indem wir ein zentrales Maß berechnen und angeben, wie groß die Streuung um diese zentrale Schätzung herum ist.


Faktoren im Zusammenhang mit Rezidiven und Überlebensdauer nach einem Rezidiv bei Patienten mit Neuroblastom

Hintergrund: Trotz therapeutischer Fortschritte bleibt das Überleben von Neuroblastom-Patienten nach einem Rezidiv gering. Wir untersuchten klinische und biologische Faktoren, die mit der Dauer des progressionsfreien Überlebens und dem Gesamtüberleben nach einem Rezidiv bei britischen Neuroblastompatienten verbunden sind.

Methoden: Alle Fälle von rezidiviertem Neuroblastom, die zwischen 1990 und 2010 diagnostiziert wurden, wurden von vier Hauptbehandlungszentren der Pädiatrischen Onkologie identifiziert. Anhand von Kaplan-Meier- und Cox-Regressionsanalysen wurden das Gesamtüberleben nach Rückfall (PROS), das progressionsfreie Überleben nach Rückfall (PRPFS) zwischen Rückfall und weiterem Fortschreiten berechnet und Einflussfaktoren untersucht.

Ergebnisse: Einhundertneunundachtzig Fälle wurden anhand von Fallnotizen identifiziert, 159 (84,0 %) Hochrisiko- und 17 (9,0 %) nicht resezierbares, MYCN nicht-amplifiziertes (Nicht-MNA) Intermediärrisiko (IR). Bei Hochrisikopatienten, bei denen >2000 diagnostiziert wurde, betrug das mediane PROS 8,4 Monate (Interquartilsabstand (IQR) = 3,0-17,4) und das mediane PRPFS 4,7 Monate (IQR = 2,1-7,1). Bei IR-Patienten ohne MNA betrug die mediane PROS 11,8 Monate (IQR 9,0-51,6) und die 5-Jahres-PROS 24 % (95 % KI 7-45 %). Eine MYCN-amplifizierte (MNA) Erkrankung und Knochenmarkmetastasen bei der Diagnose waren unabhängig mit einem schlechteren PROS für Hochrisikofälle verbunden. 80 % der Hochrisiko-Rezidive traten innerhalb von 2 Jahren nach der Diagnose auf, verglichen mit 50 % der nicht resezierbaren nicht-MNA-IR-Erkrankung.

Schlussfolgerungen: Patienten mit rezidivierten HR-Neuroblastomen sollten nach MYCN-Status stratifiziert werden, und PRPFS sollte der primäre Endpunkt in klinischen Studien der frühen Phase sein. Das Versäumnis, die Mehrheit der IR-Neuroblastome zu retten, ist besorgniserregend und unterstützt die Untersuchung einer Intensivierung der Vorabbehandlungsschemata in dieser Gruppe, um festzustellen, ob ihre Verwendung die Wahrscheinlichkeit eines Rückfalls verringern würde.

Interessenkonflikt-Erklärung

Dr. Lucas Moreno legt folgende Tätigkeiten offen: Beratungs-/Beiratsbeteiligung für Novartis, AstraZeneca, RocheGenentech, Mundipharma und Bayer. Die übrigen Autoren geben an, dass kein Interessenkonflikt besteht.


Pakete laden

Einfachster Anwendungsfall

Der einfachste Anwendungsfall ist die Zusammenfassung des gesamten Datensatzes. Sie können den Datenrahmen einfach in die Hauptarbeitspferdfunktion CreateTableOne() einspeisen. Sie können sehen, dass der Datensatz 418 Patienten enthält.

Kategoriale Variablenumwandlung

Die meisten kategorialen Variablen sind numerisch codiert, sodass wir sie entweder in Faktoren im Datensatz umwandeln oder das Argument factorVars verwenden müssen, um sie im laufenden Betrieb umzuwandeln. Außerdem empfiehlt es sich, anzugeben, welche Variablen mit dem Argument vars zusammengefasst werden sollen, und die ID-Variable(n) auszuschließen. Woher wissen wir, welche numerisch kodierten kategorialen Variablen sind? Bitte überprüfen Sie Ihr Datenwörterbuch (in diesem Fall help(pbc)). Dieses Mal speichere ich das Ergebnisobjekt in einer Variablen.

OK. Jetzt ist es besser interpretierbar. Binäre kategoriale Variablen werden als Anzahlen und Prozentsätze der zweiten Ebene zusammengefasst. Wenn es beispielsweise mit 0 und 1 codiert ist, wird die Ebene „1“ zusammengefasst. Für die Kategorievariable 3+ werden alle Ebenen zusammengefasst. Bitte beachten Sie, dass die Prozentsätze nach Ausschluss fehlender Werte berechnet werden.

Alle Ebenen für kategoriale Variablen anzeigen

Wenn Sie alle Ebenen anzeigen möchten, können Sie das Argument showAllLevels für die Methode print() verwenden.

Detaillierte Informationen einschließlich Fehlen

Wenn Sie detailliertere Informationen benötigen, einschließlich der fehlenden Anzahl/des fehlenden Anteils. Verwenden Sie die Methode summary() für das Ergebnisobjekt. Die kontinuierlichen Variablen werden zuerst angezeigt und die kategorialen Variablen werden als zweite angezeigt.

Nichtnormale Variablen zusammenfassen

Es sieht so aus, als ob die meisten der kontinuierlichen Variablen stark verzerrt sind, außer Zeit, Alter, Albumin und Blutplättchen (Biomarker werden normalerweise mit starken positiven Verzerrungen verteilt). Sie als solche zusammenzufassen, kann Ihren zukünftigen Gutachtern gefallen. Machen wir es mit dem nicht-normalen Argument der Methode print(). Kannst du den Unterschied sehen. Wenn Sie einfach nicht normal = WAHR sagen, werden alle Variablen auf „nicht normale“ Weise zusammengefasst.

Feintuning

Wenn Sie die Tabelle weiter verfeinern möchten, lesen Sie bitte ?print.TableOne für die vollständige Liste der Optionen.


8.4: Median und IQR

Die Fünf-Zahlen-Zusammenfassung ist eine Methode zum Zusammenfassen einer Datenverteilung. Die fünf Zahlen sind das Minimum, der Wert des ersten Quartils (Q1), der Median, der Wert des dritten Quartils (Q3) und das Maximum.

Geben Sie die fünfstellige Zusammenfassung für den folgenden Datensatz an:

1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6, 6, 6, 7, 8, 8, 9, 27

Das erste, was Ihnen an diesem Datensatz auffallen könnte, ist die Zahl 27. Dies unterscheidet sich stark von den übrigen Daten. Es ist ein Ausreißer und muss entfernt werden. Bei Ausreißern entfernen wir alles, was nicht zwischen einem unteren und einem oberen Zaun liegt:

Hier finden wir zuerst die Werte des ersten Quartils (Q1) und des dritten Quartils (Q3). Wir verwenden dann diese beiden Werte, um den Interquartilbereich (IQR) zu ermitteln. Schließlich können wir diese Werte verwenden, um die unteren und oberen Zäune zu finden. Wenn wir die Werte einsetzen, finden wir einen unteren Zaun von -3 und einen oberen von 13. Wir entfernen jetzt die 27 aus dem ursprünglichen Datensatz, da sie außerhalb dieses Bereichs liegt. Unser neuer Datensatz ist:


Interquartil-, Semi-Interquartil- und Mittelquartil-Bereiche

In einem Datensatz sind die Quartile die Werte, die die Daten in vier gleiche Teile unterteilen. Der Median eines Datensatzes teilt den Datensatz in zwei Hälften.

Der Median der unteren Hälfte eines Datensatzes ist das untere Quartil (LQ) oder Q1.

Der Median der oberen Hälfte eines Datensatzes ist das obere Quartil (U Q) oder Q 3 .

Das obere und das untere Quartil können verwendet werden, um ein weiteres Maß für die Variation zu finden, den Interquartilbereich.

Das Interquartilsabstand oder IQR ist der Bereich der mittleren Hälfte eines Datensatzes. Es ist die Differenz zwischen dem oberen Quartil und dem unteren Quartil.

Interquartilabstand = Q 3 &minus Q 1

Im obigen Beispiel beträgt das untere Quartil 52 und das obere Quartil 58 .

Der Interquartilbereich beträgt 58 &minus 52 oder 6 .

Daten, die mehr als das 1,5-fache des Wertes des Interquartilbereichs jenseits der Quartile betragen, werden als Ausreißer bezeichnet.

Statistiker verwenden manchmal auch die Begriffe Halbinterquartilbereich und mittlerer Quartilbereich .

Der Semi-Interquartil-Bereich beträgt die Hälfte der Differenz zwischen dem ersten und dritten Quartil. Es ist die halbe Distanz, die benötigt wird, um die Hälfte der Punkte zu bewältigen. Der semi-interquartile Bereich wird nur sehr wenig von extremen Werten beeinflusst. Dies macht es zu einem guten Streuungsmaß für schiefe Verteilungen. Sie wird erhalten durch Bewerten von Q 3 &minus Q 1 2 .

Der mittlere Quartilbereich ist der Zahlenwert in der Mitte zwischen dem ersten und dritten Quartil. Es ist die Hälfte der Summe des ersten und dritten Quartils. Sie wird durch Auswertung von Q 3 + Q 1 2 erhalten.

(Der Median, der Mittelbereich und das mittlere Quartil sind nicht immer gleich, obwohl sie es sein können.)


Blinddarm

Emory COVID-19 Quality and Clinical Research Collaborative Members (in alphabetischer Reihenfolge): Max W. Adelman, Scott Arno, Sara C. Auld, Theresa Barnes, William Bender, James M. Blum, Gaurav Budharani, Stephanie Busby, Laurence Busse, Mark Caridi-Scheible, David Carpenter, Nikulkumar Chaudhari, Craig M. Coopersmith, Lisa Daniels, Jane Fazio, Babar Fiza, Eliana Gonzalez, Ria Gripaldo, Charles Grodzin, Robert Groff, Alfonso C. Hernandez-Romieu, Max Hockstein, Dan Hunt, Craig S. Jabaley, Jesse T. Jacob, Colleen Kraft, Greg S. Martin, Samer Melham, Nirja Mehta, Chelsea Modlin, David J. Murphy, Mia Park, Deepa Patel, Cindy Powell, Amit Prabhaker, Jeeyon Rim, Ramzy Rimawi, Chad Robichaux, Nicholas Scanlon, Milad Sharifpour, Bashar Staitieh, Michael Sterling, Jonathan Suarez, Colin Swenson, Nancy Thakkar, Alexander Truong, Hima Veeramachaneni, Alvaro Velasquez, Michael Waldmann, Max Weinmann, Thanushi Wynn und Joel Zivot.


Schau das Video: Sady Ujran Ty Singer. Singer Saqlain Musa Khelvi. Saqlain Musakhelvi Official (August 2022).