Artikel

7.2: Ergebnisse und Fehler Typ I und Typ II - Mathematik


Wenn Sie einen Hypothesentest durchführen, gibt es vier mögliche Ergebnisse, abhängig von der tatsächlichen Wahrheit (oder Falschheit) der Nullhypothese (H_{0}) und der Entscheidung, ob sie abgelehnt wird oder nicht. Die Ergebnisse sind in der folgenden Tabelle zusammengefasst:

AKTION(H_{0}) ist tatsächlich wahr(H_{0}) ist tatsächlich falsch
Nicht ablehnen (H_{0})Richtiges ErgebnisFehler Typ II
Ablehnen (H_{0})Fehler Typ IRichtiges Ergebnis

Die vier möglichen Ergebnisse in der Tabelle sind:

  1. Die Entscheidung ist nicht ablehnen (H_{0}) wenn (H_{0}) ist wahr (richtige Entscheidung).
  2. Die Entscheidung ist zu ablehnen (H_{0}) wenn (H_{0}) ist wahr (Fehlentscheidung, bekannt als Fehler vom Typ I).
  3. Die Entscheidung ist nicht ablehnen (H_{0}) wenn tatsächlich (H_{0}) ist falsch (Fehlentscheidung, bekannt als Fehler vom Typ II).
  4. Die Entscheidung ist zu ablehnen (H_{0}) wenn (H_{0}) ist falsch (richtige Entscheidung deren Wahrscheinlichkeit heißt Leistung des Tests).

Jeder der Fehler tritt mit einer bestimmten Wahrscheinlichkeit auf. Die griechischen Buchstaben (alpha) und (eta) stehen für die Wahrscheinlichkeiten.

  • (alpha =) Wahrscheinlichkeit eines Fehlers 1. Art (= P( ext{Fehler 1. Art}) =) Wahrscheinlichkeit der Ablehnung der Nullhypothese, wenn die Nullhypothese wahr ist.
  • (eta =) Wahrscheinlichkeit eines Typ-II-Fehlers (= P( ext{Typ-II-Fehler}) =) Wahrscheinlichkeit, die Nullhypothese nicht abzulehnen, wenn die Nullhypothese falsch ist.

(alpha) und (eta) sollten so klein wie möglich sein, da es sich um Fehlerwahrscheinlichkeiten handelt. Sie sind selten Null.

Das Macht des Tests ist (1 - eta). Im Idealfall wollen wir eine hohe Leistung, die so nah wie möglich an eins herankommt. Eine Erhöhung der Stichprobengröße kann die Aussagekraft des Tests erhöhen. Im Folgenden sind Beispiele für Fehler vom Typ I und Typ II aufgeführt.

Beispiel (PageIndex{1}): Typ I vs. Typ II Fehler

Angenommen, die Nullhypothese (H_{0}) lautet: Franks Kletterausrüstung ist sicher.

  • Fehler Typ I: Frank denkt, dass seine Kletterausrüstung möglicherweise nicht sicher ist, obwohl sie tatsächlich sicher ist.
  • Fehler Typ II: Frank denkt, dass seine Kletterausrüstung sicher ist, obwohl sie in Wirklichkeit nicht sicher ist.

(alpha=) Wahrscheinlichkeit dass Frank denkt, dass seine Kletterausrüstung möglicherweise nicht sicher ist, obwohl sie tatsächlich sicher ist.

(eta=) Wahrscheinlichkeit dass Frank glaubt, dass seine Kletterausrüstung sicher ist, obwohl sie in Wirklichkeit nicht sicher ist.

Beachten Sie, dass in diesem Fall der Fehler mit der größeren Konsequenz der Fehler Typ II ist. (Wenn Frank der Meinung ist, dass seine Kletterausrüstung sicher ist, wird er sie benutzen.)

Übung (PageIndex{1})

Angenommen, die Nullhypothese (H_{0}) lautet: Die Blutkulturen enthalten keine Spuren des Erregers (X). Geben Sie die Fehler Typ I und Typ II an.

Antworten
  • Fehler Typ I: Der Forscher glaubt, dass die Blutkulturen Spuren des Erregers (X) enthalten, obwohl dies in Wirklichkeit nicht der Fall ist.
  • Fehler Typ II: Der Forscher glaubt, dass die Blutkulturen keine Spuren des Erregers (X) enthalten, obwohl dies tatsächlich der Fall ist.

Beispiel (PageIndex{2})

Angenommen, die Nullhypothese (H_{0}) lautet: Das Opfer eines Autounfalls ist am Leben, als es in die Notaufnahme eines Krankenhauses kommt.

  • Fehler Typ I: Die Rettungsmannschaft denkt, dass das Opfer tot ist, obwohl das Opfer tatsächlich lebt.
  • Fehler Typ II: Die Rettungskräfte wissen nicht, ob das Opfer lebt, obwohl das Opfer tatsächlich tot ist.

(alpha=) Wahrscheinlichkeit dass die Rettungskräfte das Opfer für tot halten, obwohl es tatsächlich lebt (= P( ext{Fehler Typ I})).

(eta=) Wahrscheinlichkeit dass die Rettungsmannschaft nicht weiß, ob das Opfer lebt, obwohl das Opfer tatsächlich tot ist (= P( ext{Fehler Typ II})).

Der Fehler mit der größeren Konsequenz ist der Fehler Typ I. (Wenn die Rettungskräfte das Opfer für tot halten, werden sie es nicht behandeln.)

Übung (PageIndex{2})

Angenommen, die Nullhypothese (H_{0}) lautet: Ein Patient ist nicht krank. Welche Fehlerart hat die größere Konsequenz, Typ I oder Typ II?

Antworten

Der Fehler mit der größeren Konsequenz ist der Fehler Typ II: Der Patient wird gut behandelt, wenn er tatsächlich krank ist, und erhält keine Behandlung.

Beispiel (PageIndex{3})

Es ist eine Behauptung von Boy Genetic Labs, die Wahrscheinlichkeit erhöhen zu können, dass eine Schwangerschaft zur Geburt eines Jungen führt. Statistiker wollen die Behauptung testen. Angenommen, die Nullhypothese (H_{0}) lautet: It’s a Boy Genetic Labs hat keinen Einfluss auf das Geschlechterergebnis.

  • Fehler Typ I: Dies ergibt sich, wenn eine echte Nullhypothese abgelehnt wird. Im Zusammenhang mit diesem Szenario würden wir sagen, dass wir glauben, dass It’s a Boy Genetic Labs das Geschlechterergebnis beeinflusst, obwohl es in Wirklichkeit keine Auswirkungen hat. Die Wahrscheinlichkeit, dass dieser Fehler auftritt, wird mit dem griechischen Buchstaben alpha, (alpha) bezeichnet.
  • Fehler Typ II: Dies ergibt sich, wenn wir eine falsche Nullhypothese nicht ablehnen. Im Kontext würden wir sagen, dass It’s a Boy Genetic Labs keinen Einfluss auf das geschlechtliche Ergebnis einer Schwangerschaft hat, obwohl dies tatsächlich der Fall ist. Die Wahrscheinlichkeit, dass dieser Fehler auftritt, wird mit dem griechischen Buchstaben Beta, (eta) bezeichnet.

Der schwerwiegendere Fehler wäre der Fehler Typ I, da Paare das Produkt von It's a Boy Genetic Labs verwenden würden, um die Chancen auf einen Jungen zu erhöhen.

Übung (PageIndex{3})

„Rote Flut“ ist eine Blüte giftiger Algen – ein paar verschiedene Arten einer Planktonklasse namens Dinoflagellaten. Wenn das Wetter und die Wasserbedingungen diese Blüten verursachen, entwickeln Schalentiere wie Muscheln, die in der Gegend leben, gefährliche Mengen eines lähmungsauslösenden Toxins. In Massachusetts überwacht die Division of Marine Fisheries (DMF) den Toxingehalt in Schalentieren durch regelmäßige Probenahmen von Schalentieren entlang der Küste. Wenn der durchschnittliche Toxingehalt in Muscheln in irgendeinem Gebiet 800 μg (Mikrogramm) Toxin pro kg Muschelfleisch überschreitet, wird die Muschelernte dort verboten, bis die Blüte vorbei ist und der Toxingehalt in den Muscheln nachlässt. Beschreiben Sie in diesem Zusammenhang sowohl einen Fehler Typ I als auch einen Fehler Typ II und geben Sie an, welcher Fehler die größere Konsequenz hat.

Antworten

In diesem Szenario wäre eine geeignete Nullhypothese (H_{0}): Der mittlere Toxingehalt beträgt höchstens (800 mu ext{g}), (H_{0}: mu_{ 0} leq 800 mu ext{g}).

Fehler Typ I: Das DMF ist der Meinung, dass die Toxinwerte immer noch zu hoch sind, wenn die Toxinwerte tatsächlich höchstens (800 mu ext{g}) betragen. Das DMF setzt das Ernteverbot fort.
Fehler Typ II: Das DMF ist der Ansicht, dass die Toxinwerte innerhalb akzeptabler Werte liegen (mindestens 800 μg) wenn die Toxinwerte tatsächlich noch zu hoch sind (mehr als (800 mu ext{g})). Das DMF hebt das Ernteverbot auf. Dieser Fehler kann der schwerwiegendste sein. Wenn das Verbot aufgehoben wird und Muscheln immer noch giftig sind, könnten Verbraucher möglicherweise verdorbene Lebensmittel essen.
Zusammenfassend lässt sich sagen, dass der gefährlichere Fehler darin besteht, einen Fehler vom Typ II zu begehen, da dieser Fehler die Verfügbarkeit von verdorbenen Muscheln zum Verzehr beinhaltet.

Beispiel (PageIndex{4})

Ein bestimmtes experimentelles Medikament behauptet eine Heilungsrate von mindestens 75% für Männer mit Prostatakrebs. Beschreiben Sie Fehler vom Typ I und Typ II im Kontext. Welcher Fehler ist der schwerwiegendere?

  • Tippe I: Ein Krebspatient glaubt, dass die Heilungsrate für das Medikament weniger als 75 % beträgt, obwohl sie tatsächlich mindestens 75 % beträgt.
  • Typ II: Ein Krebspatient glaubt, dass das experimentelle Medikament eine Heilungsrate von mindestens 75 % hat, wenn die Heilungsrate weniger als 75 % beträgt.

In diesem Szenario enthält der Fehler Typ II die schwerwiegendere Konsequenz. Wenn ein Patient glaubt, dass das Medikament in mindestens 75 % der Fälle wirkt, wird dies höchstwahrscheinlich die Entscheidung des Patienten (und des Arztes) beeinflussen, ob das Medikament als Behandlungsoption verwendet wird.

Übung (PageIndex{4})

Bestimmen Sie sowohl Fehler vom Typ I als auch vom Typ II für das folgende Szenario:

Nehmen Sie eine Nullhypothese an, (H_{0}), die besagt, dass der Prozentsatz der Erwachsenen mit einem Arbeitsplatz mindestens 88 % beträgt. Identifizieren Sie die Fehler Typ I und Typ II aus diesen vier Aussagen.

  1. Die Nullhypothese nicht abzulehnen, dass der Prozentsatz der Erwachsenen, die eine Arbeit haben, mindestens 88% beträgt, wenn dieser Prozentsatz tatsächlich weniger als 88% beträgt
  2. Die Nullhypothese nicht abzulehnen, dass der Prozentsatz der Erwachsenen, die eine Arbeit haben, mindestens 88 % beträgt, obwohl der Prozentsatz tatsächlich mindestens 88 % beträgt.
  3. Lehnen Sie die Nullhypothese ab, dass der Prozentsatz der Erwachsenen, die eine Arbeit haben, mindestens 88% beträgt, obwohl der Prozentsatz tatsächlich mindestens 88% beträgt.
  4. Lehnen Sie die Nullhypothese ab, dass der Prozentsatz der Erwachsenen, die eine Arbeit haben, mindestens 88% beträgt, obwohl dieser Prozentsatz tatsächlich weniger als 88% beträgt.
Antworten

Fehler Typ I: c

Fehler Typ I: b

Zusammenfassung

Bei jedem Hypothesentest hängen die Ergebnisse von einer korrekten Interpretation der Daten ab. EIN Tippe I Fehler tritt auf, wenn eine wahre Nullhypothese abgelehnt wird. EIN Fehler Typ II tritt auf, wenn eine falsche Nullhypothese nicht abgelehnt wird. Die Wahrscheinlichkeiten dieser Fehler werden mit den griechischen Buchstaben (alpha) und (eta) für einen Fehler vom Typ I bzw. Typ II bezeichnet. Die Teststärke (1 - eta) quantifiziert die Wahrscheinlichkeit, dass ein Test das richtige Ergebnis liefert, wenn eine echte Alternativhypothese akzeptiert wird. Eine hohe Leistung ist wünschenswert.

Formel-Überprüfung

  • (alpha =) Wahrscheinlichkeit eines Fehlers 1. Art (= P( ext{Fehler 1. Art}) =) Wahrscheinlichkeit der Ablehnung der Nullhypothese, wenn die Nullhypothese wahr ist.
  • (eta =) Wahrscheinlichkeit eines Typ-II-Fehlers (= P( ext{Typ-II-Fehler}) =) Wahrscheinlichkeit, die Nullhypothese nicht abzulehnen, wenn die Nullhypothese falsch ist.

Glossar

Fehler Typ 1
Die Entscheidung besteht darin, die Nullhypothese abzulehnen, wenn die Nullhypothese tatsächlich wahr ist.
Fehler Typ 2
Die Entscheidung besteht darin, die Nullhypothese nicht abzulehnen, wenn die Nullhypothese tatsächlich falsch ist.

7.2 Der zentrale Grenzwertsatz für Summen

Annehmen X ist eine Zufallsvariable mit einer Verteilung, die sein kann bekannt oder unbekannt (es kann eine beliebige Verteilung sein) und angenommen:

Wenn Sie zufällige Größenstichproben ziehen draw n, Dann als n steigt, die Zufallsvariable ΣX aus Summen besteht tendenziell normalverteilt und ΣΧ

Das Der zentrale Grenzwertsatz für Summen besagt, dass, wenn Sie wiederholt Stichproben einer bestimmten Größe ziehen (z. B. wiederholt zehn Würfel werfen) und die Summe jeder Stichprobe berechnen, diese Summen dazu neigen, einer Normalverteilung zu folgen. Mit zunehmender Stichprobengröße folgt die Mittelwertverteilung stärker der Normalverteilung. Die Normalverteilung hat einen Mittelwert gleich dem ursprünglichen Mittelwert multipliziert mit dem Stichprobenumfang und eine Standardabweichung gleich der ursprünglichen Standardabweichung multipliziert mit der Quadratwurzel des Stichprobenumfangs.

Die Zufallsvariable ΣX hat folgendes z- damit verbundene Punktzahl:

Verwenden des Taschenrechners TI-83, 83+, 84, 84+

Gehen Sie wie folgt vor, um Wahrscheinlichkeiten für Summen auf dem Taschenrechner zu ermitteln.

2. VERTEILUNG
2: normalcdf
normalcdf (unterer Wert der Fläche, oberer Wert der Fläche, (n)(Mittelwert), ( n n )(Standardabweichung))

  • bedeuten ist der Mittelwert der ursprünglichen Verteilung
  • Standardabweichung ist die Standardabweichung der ursprünglichen Verteilung
  • Stichprobengröße = n

Beispiel 7.5

Eine unbekannte Verteilung hat einen Mittelwert von 90 und eine Standardabweichung von 15. Eine Stichprobe der Größe 80 wird zufällig aus der Grundgesamtheit gezogen.

  1. Finden Sie die Wahrscheinlichkeit, dass die Summe der 80 Werte (oder die Summe der 80 Werte) mehr als 7.500 beträgt.
  2. Finden Sie die Summe, die 1,5 Standardabweichungen über dem Mittelwert der Summen liegt.

Lösung 1

Lassen X = ein Wert aus der ursprünglichen unbekannten Grundgesamtheit. Die Wahrscheinlichkeitsfrage fordert Sie auf, eine Wahrscheinlichkeit für zu finden die Summe (oder Summe) von 80 Werten.

ΣX = die Summe oder Summe von 80 Werten. Seit μX = 90, σX = 15, und n = 80, X Σ X

Verwenden des Taschenrechners TI-83, 83+, 84, 84+

normalcdf (unterer Wert, oberer Wert, Mittelwert der Summen, stdev der Summen)

Erinnerung

1E99 = 1099 .

Eine unbekannte Verteilung hat einen Mittelwert von 45 und eine Standardabweichung von acht. Eine Stichprobengröße von 50 wird zufällig aus der Grundgesamtheit gezogen. Finden Sie die Wahrscheinlichkeit, dass die Summe der 50 Werte mehr als 2.400 beträgt.

Verwenden des Taschenrechners TI-83, 83+, 84, 84+

Gehen Sie folgendermaßen vor, um Perzentile für Summen auf dem Rechner zu finden.

  • k ist der k Perzentil
  • bedeuten ist der Mittelwert der ursprünglichen Verteilung
  • Standardabweichung ist die Standardabweichung der ursprünglichen Verteilung
  • Stichprobengröße = n

Beispiel 7.6

In einer aktuellen Studie vom 29. Oktober 2012 im Flurry Blog liegt das Durchschnittsalter der Tablet-Nutzer bei 34 Jahren. Angenommen, die Standardabweichung beträgt 15 Jahre. Die Stichprobengröße beträgt 50.


9.3: Ergebnisse und Fehler Typ I und Typ II

F 9.3.1

Geben Sie die Fehler Typ I und Typ II in vollständigen Sätzen an, wenn die folgenden Aussagen gegeben sind.

  1. Die durchschnittliche Anzahl von Jahren, die Amerikaner vor ihrer Pensionierung arbeiten, beträgt 34 ​​Jahre.
  2. Bei Präsidentschaftswahlen stimmen höchstens 60 % der Amerikaner.
  3. Das durchschnittliche Einstiegsgehalt für Absolventen der San Jose State University beträgt mindestens 100.000 US-Dollar pro Jahr.
  4. Neunundzwanzig Prozent der Abiturienten betrinken sich jeden Monat.
  5. Weniger als 5 % der Erwachsenen fahren mit dem Bus zur Arbeit in Los Angeles.
  6. Die durchschnittliche Anzahl von Autos, die ein Mensch im Laufe seines Lebens besitzt, beträgt nicht mehr als zehn.
  7. Ungefähr die Hälfte der Amerikaner zieht es vor, weg von Städten zu leben, wenn sie die Wahl haben.
  8. Europäer haben jedes Jahr einen durchschnittlichen bezahlten Urlaub von sechs Wochen.
  9. Die Wahrscheinlichkeit, an Brustkrebs zu erkranken, liegt bei Frauen unter 11 %.
  10. Private Universitäten bedeuten, dass die Studiengebühren mehr als 20.000 US-Dollar pro Jahr betragen.

S 9.3.1

  1. Fehler Typ I: Wir schließen daraus, dass der Mittelwert nicht 34 Jahre beträgt, obwohl er tatsächlich 34 Jahre beträgt. Fehler Typ II: Wir schließen daraus, dass der Mittelwert 34 Jahre beträgt, obwohl es in Wirklichkeit keine 34 Jahre sind.
  2. Fehler Typ I: Wir kommen zu dem Schluss, dass mehr als 60 % der Amerikaner bei Präsidentschaftswahlen wählen, obwohl der tatsächliche Prozentsatz höchstens 60 % beträgt. Fehler Typ II: Wir kommen zu dem Schluss, dass höchstens 60 % der Amerikaner bei Präsidentschaftswahlen wählen, obwohl tatsächlich mehr als 60 % tun.
  3. Fehler Typ I: Wir schließen daraus, dass das durchschnittliche Einstiegsgehalt weniger als 100.000 US-Dollar beträgt, obwohl es in Wirklichkeit mindestens 100.000 US-Dollar beträgt. Fehler Typ II: Wir schließen daraus, dass das durchschnittliche Anfangsgehalt mindestens 100.000 US-Dollar beträgt, obwohl es tatsächlich weniger als 100.000 US-Dollar beträgt.
  4. Fehler Typ I: Wir schließen daraus, dass der Anteil der High School-Absolventen, die sich jeden Monat betrinken, nicht bei 29 % liegt, sondern bei 29 %. Fehler vom Typ II: Wir folgern, dass der Anteil der High-School-Absolventen, die jeden Monat betrunken sind, 29% beträgt, obwohl es in Wirklichkeit nicht 29% sind.
  5. Fehler Typ I: Wir kommen zu dem Schluss, dass weniger als 5 % der Erwachsenen mit dem Bus zur Arbeit in Los Angeles fahren, obwohl der Prozentsatz tatsächlich 5 % oder mehr beträgt. Fehler Typ II: Wir schließen daraus, dass 5 % oder mehr Erwachsene mit dem Bus zur Arbeit in Los Angeles fahren, obwohl es weniger als 5 % tun.
  6. Fehler vom Typ I: Wir schließen daraus, dass die durchschnittliche Anzahl der Autos, die eine Person in ihrem Leben besitzt, mehr als 10 beträgt, obwohl es in Wirklichkeit nicht mehr als 10 sind. Fehler vom Typ II: Wir schließen daraus, dass die durchschnittliche Anzahl von Autos eine Person besitzt in seinem Leben nicht mehr als 10 beträgt, obwohl es tatsächlich mehr als 10 sind.
  7. Fehler Typ I: Wir schließen daraus, dass der Anteil der Amerikaner, die es vorziehen, außerhalb der Städte zu leben, nicht etwa die Hälfte beträgt, obwohl der tatsächliche Anteil etwa die Hälfte beträgt. Fehler vom Typ II: Wir schließen daraus, dass der Anteil der Amerikaner, die es vorziehen, außerhalb der Städte zu leben, halbiert ist, obwohl er in Wirklichkeit nicht halbiert ist.
  8. Fehler Typ I: Wir kommen zu dem Schluss, dass die Dauer des bezahlten Urlaubs jedes Jahr für Europäer nicht sechs Wochen beträgt, sondern tatsächlich sechs Wochen. Fehler Typ II: Wir schließen daraus, dass die Dauer des bezahlten Urlaubs für Europäer jedes Jahr sechs Wochen beträgt, obwohl dies in Wirklichkeit nicht der Fall ist.
  9. Fehler Typ I: Wir schließen daraus, dass der Anteil weniger als 11% beträgt, obwohl er tatsächlich mindestens 11% beträgt. Fehler Typ II: Wir schließen daraus, dass der Anteil der Frauen, die an Brustkrebs erkranken, mindestens 11% beträgt, obwohl er tatsächlich weniger als 11% beträgt.
  10. Fehler Typ I: Wir kommen zu dem Schluss, dass die durchschnittlichen Studiengebühren an privaten Universitäten mehr als 20.000 US-Dollar betragen, in Wirklichkeit jedoch höchstens 20.000 US-Dollar betragen. Fehler Typ II: Wir schließen daraus, dass die durchschnittlichen Studiengebühren an privaten Universitäten höchstens 20.000 US-Dollar betragen, obwohl sie tatsächlich mehr als 20.000 US-Dollar betragen.

F 9.3.2

Beantworten Sie für die Aussagen a-j in Aufgabe 9.109 das Folgende in vollständigen Sätzen.

  1. Nennen Sie eine Konsequenz aus der Begehung eines Fehlers des Typs I.
  2. Nennen Sie eine Konsequenz aus der Begehung eines Typ-II-Fehlers.

Q 9.3.3

Wenn ein neues Medikament entwickelt wird, muss das Pharmaunternehmen es testen, bevor es die erforderliche Genehmigung der Food and Drug Administration (FDA) zur Vermarktung des Medikaments erhält. Angenommen, die Nullhypothese lautet: "Das Medikament ist unsicher". Was ist der Typ-II-Fehler?

  1. Zu dem Schluss, dass das Medikament sicher ist, wenn es tatsächlich unsicher ist.
  2. Nicht zu dem Schluss zu kommen, dass das Medikament sicher ist, wenn es tatsächlich sicher ist.
  3. Zu dem Schluss, dass das Medikament sicher ist, wenn es tatsächlich sicher ist.
  4. Nicht zu dem Schluss zu kommen, dass das Medikament unsicher ist, obwohl es tatsächlich unsicher ist.

S 9.3.3

Q 9.3.4

Ein Statistiklehrer glaubt, dass weniger als 20 % der Studenten des Evergreen Valley College (EVC) an der Eröffnungsvorführung des neuesten Harry-Potter-Films um Mitternacht teilnahmen. Sie befragt 84 ihrer Schüler und stellt fest, dass 11 von ihnen die Mitternachtsvorstellung besucht haben. Der Fehler Typ I besteht darin, dass der Prozentsatz der EVC-Studenten, die teilgenommen haben, ________ beträgt.

  1. mindestens 20 %, wenn es tatsächlich weniger als 20 % sind.
  2. 20 %, wenn es tatsächlich 20 % sind.
  3. weniger als 20 %, obwohl es tatsächlich mindestens 20 % sind.
  4. weniger als 20 %, obwohl es tatsächlich weniger als 20 % sind.

Q 9.3.4

Es wird angenommen, dass Schüler der Mittelstufe Algebra am Lake Tahoe Community College (LTCC) im Durchschnitt weniger als sieben Stunden pro Nacht schlafen. Eine Umfrage unter 22 LTCC Intermediate Algebra Studenten ergab einen Mittelwert von 7,24 Stunden mit einer Standardabweichung von 1,93 Stunden. Bekommen LTCC Intermediate Algebra Schüler bei einem Signifikanzniveau von 5 % im Durchschnitt weniger als sieben Stunden Schlaf pro Nacht?

Der Fehler Typ II besteht nicht darin, abzulehnen, dass LTCC-Studenten durchschnittlich mindestens sieben Stunden Schlaf pro Nacht erhalten, obwohl die durchschnittliche Stundenzahl in Wirklichkeit ist

  1. beträgt mehr als sieben Stunden.
  2. beträgt höchstens sieben Stunden.
  3. beträgt mindestens sieben Stunden.
  4. weniger als sieben Stunden beträgt.

S 9.3.4

Q 9.3.5

Zuvor berichtete eine Organisation, dass Teenager durchschnittlich 4,5 Stunden pro Woche am Telefon verbrachten. Die Organisation geht davon aus, dass der Mittelwert derzeit höher ist. 15 zufällig ausgewählte Teenager wurden gefragt, wie viele Stunden sie pro Woche am Telefon verbringen. Der Probenmittelwert betrug 4,75 Stunden mit einer Probenstandardabweichung von 2,0. Führen Sie einen Hypothesentest durch, der Fehler Typ I ist:

  1. schlussfolgern, dass die aktuelle durchschnittliche Stundenzahl pro Woche höher als 4,5 ist, obwohl sie tatsächlich höher ist
  2. schlussfolgern, dass die aktuelle durchschnittliche Stundenzahl pro Woche höher als 4,5 ist, obwohl sie tatsächlich gleich ist
  3. schlussfolgern, dass die durchschnittliche Wochenstundenzahl derzeit 4,5 beträgt, obwohl sie tatsächlich höher ist
  4. zu dem Schluss zu kommen, dass die durchschnittliche Wochenstundenzahl derzeit nicht höher als 4,5 ist, obwohl sie tatsächlich nicht höher ist

Einführung

“Statistische Analysen erlauben uns, unsere Unsicherheit zu begrenzen, aber nichts zu beweisen.”—Douglas G. Altman [1]

Der wachsende Bedarf an evidenzbasierter medizinischer Praxis hat zu einer zunehmenden durch Statistiken gestützten medizinischen Literatur geführt: Leser erwarten und gehen davon aus, dass medizinische Zeitschriften nur Studien mit zweifelsfreien Ergebnissen veröffentlichen, die sie in ihrer täglichen Praxis anwenden können, und Redakteure erwarten und fordern oft von Autoren rigoros belegbare Antworten. Forscher reichen Artikel ein, die auf mutmaßlich gültigen Ergebnismaßen, Analysen und Schlussfolgerungen basieren, die die Überlegenheit einer Behandlung gegenüber einer anderen, die Nützlichkeit eines neuen diagnostischen Tests oder den prognostischen Wert eines Zeichens behaupten oder andeuten. Paradoxerweise kann die zunehmende Häufigkeit scheinbar widersprüchlicher Ergebnisse in der medizinischen Fachwelt zu zunehmender Skepsis führen.

Ein wesentlicher Grund für dieses Rätsel liegt in der Theorie des Hypothesentests, die Ende der 1920er Jahre von Pearson und Neyman entwickelt wurde [24, 25]. Der Großteil der medizinischen Forschung wird in Form eines Vergleichs dargestellt, wobei der Behandlungsvergleich in randomisierten kontrollierten Studien am offensichtlichsten ist. Um zu beurteilen, ob der beobachtete Unterschied wahrscheinlich allein auf Zufall oder auf einen echten Unterschied zurückzuführen ist, stellten die Forscher eine Nullhypothese auf, dass es keinen Unterschied zwischen den alternativen Behandlungen gibt. Sie bestimmen dann die Wahrscheinlichkeit (den p-Wert), sie hätten die beobachtete Differenz oder eine größere Differenz erhalten können, wenn die Nullhypothese wahr wäre, wenn diese Wahrscheinlichkeit unter einem vorbestimmten expliziten Signifikanzniveau liegt, der Nullhypothese (dh es gibt keinen Unterschied) ist abgelehnt. Unabhängig von den Studienergebnissen besteht jedoch immer die Möglichkeit, auf einen Unterschied zu schließen, wenn tatsächlich kein Unterschied besteht (Typ-I-Fehler oder falsch positiv) oder zu melden, dass kein Unterschied besteht, wenn ein echter Unterschied besteht (Typ-II-Fehler oder .). falsch negativ) und die Studie konnte dies einfach nicht erkennen (Tabelle  1 ). Die Größe der untersuchten Stichprobe ist ein wesentlicher Faktor für das Risiko, falsch negative Befunde zu melden. Daher ist die Stichprobengröße für die Planung und Interpretation medizinischer Forschung wichtig.

Tabelleਁ

Fehler vom Typ I und Typ II während des Hypothesentests

WahrheitStudienergebnisse
Nullhypothese wird nicht abgelehntNullhypothese wird abgelehnt
Nullhypothese ist wahrRichtig negativFehler Typ I (Alpha) (Falsch positiv)
Nullhypothese ist falschFehler Typ II (Beta) (Falsch-negativ)Richtig positiv

Aus diesem Grund glauben wir, dass die Leser angemessen über die häufigen Fragen im Zusammenhang mit der Stichprobengröße informiert werden sollten, wie (1) das gewünschte statistische Signifikanzniveau, (2) die Wahrscheinlichkeit, einen Unterschied einer bestimmten Größenordnung zwischen den verglichenen Gruppen zu entdecken, d , die Power, (3) diese angestrebte Differenz und (4) die Variabilität der Daten (bei quantitativen Daten). Wir werden diese Aspekte anhand eines Vergleichs zwischen zwei Behandlungen in einer chirurgischen randomisierten kontrollierten Studie veranschaulichen. Die Verwendung des Stichprobenumfangs wird auch in anderen gängigen Bereichen der Statistik vorgestellt, wie etwa Schätzungs- und Regressionsanalysen.


Zusätzliche Themen in der Wahrscheinlichkeit

3.7.2 Minitab-Beispiele

Minitab enthält Unterroutinen, die pdf- und cdf-Berechnungen durchführen können. Für binomiale Zufallsvariablen können beispielsweise pdf und cdf mit den folgenden Kommentaren berechnet werden.

Übung: Versuchen Sie Folgendes und sehen Sie, was Sie erhalten.

BINOMIAL MIT N = 5 P = 0.400000

Wenn wir den cdf für eine normale Wahrscheinlichkeitsverteilung mit Mittelwert k und Standardabweichung s berechnen möchten, verwenden Sie die folgenden Kommentare.

Übung: Versuchen Sie Folgendes.

Wir können den invcdf-Befehl verwenden, um die inverse cdf zu finden. Für eine gegebene Wahrscheinlichkeit P, P(xx) = F(x) = P, wir können finden x für eine bestimmte Verteilung. Verwenden Sie beispielsweise für eine normale Wahrscheinlichkeitsverteilung mit Mittelwert k und Standardabweichung s Folgendes.

Beispiel 3.7.1

Ein Hersteller eines Farbdruckers behauptet, dass nur 5 % seiner Drucker innerhalb des ersten Jahres repariert werden müssen. Wenn aus einer Stichprobe von 18 ihrer Drucker innerhalb des ersten Jahres vier Reparaturen erforderlich sind, widerlegt oder unterstützt dies tendenziell die Behauptung des Herstellers? Verwenden Sie Minitab.

Geben Sie die Zahlen 1 bis 18 in C1 ein. Dann

Berechnet > Wahrscheinlichkeitsverteilungen > Binomial. . . > wählen Kumulative Wahrscheinlichkeit > In Anzahl von Versuchen, Eintreten 18 und in Erfolgswahrscheinlichkeit, Eintreten 0.05 > In Eingabespalte: Typ C1 > Klicken OK

Die erforderliche Wahrscheinlichkeit ist P(X≥4) = 1 − P(X ≤ 3) = 1 − 0,9891 = 0,0109.

Verteilungsprüfung

Um eine korrekte statistische Analyse durchführen zu können, ist es notwendig, die Verteilung der von uns verwendeten Daten zu kennen. Dazu können wir Minitab verwenden, indem Sie die folgenden Schritte ausführen.

Wählen Sie Statistik > Qualitätstools > Individuelle Verteilungsidentifikation.

Geben Sie die zu analysierende Datenspalte und die Verteilung an, mit der sie verglichen werden sollen.


Inhalt

In der Statistikliteratur spielt die statistische Hypothesenprüfung eine grundlegende Rolle. [4] Es gibt zwei mathematisch äquivalente Verfahren, die verwendet werden können. [5]

Die übliche Argumentation ist wie folgt:

  1. Es gibt eine erste Forschungshypothese, deren Wahrheit unbekannt ist.
  2. Der erste Schritt ist die Angabe der relevanten Null und alternative Hypothesen. Dies ist wichtig, da eine falsche Formulierung der Hypothesen den Rest des Prozesses verwirren wird.
  3. Der zweite Schritt besteht darin, die bei der Durchführung des Tests gemachten statistischen Annahmen über die Stichprobe zu berücksichtigen, beispielsweise Annahmen über die statistische Unabhängigkeit oder über die Form der Verteilungen der Beobachtungen. Dies ist ebenso wichtig, da ungültige Annahmen bedeuten, dass die Ergebnisse des Tests ungültig sind.
  4. Entscheiden Sie, welcher Test geeignet ist, und geben Sie die relevanten an Teststatistik T .
  5. Leiten Sie die Verteilung der Teststatistik unter der Nullhypothese aus den Annahmen ab. In Standardfällen ist dies ein bekanntes Ergebnis. Die Teststatistik könnte beispielsweise einer Student-t-Verteilung mit bekannten Freiheitsgraden oder einer Normalverteilung mit bekanntem Mittelwert und bekannter Varianz folgen. Wenn die Verteilung der Teststatistik durch die Nullhypothese vollständig festgelegt ist, nennen wir die Hypothese einfach, andernfalls heißt sie zusammengesetzt.
  6. Wählen Sie ein Signifikanzniveau (α), eine Wahrscheinlichkeitsschwelle, unterhalb derer die Nullhypothese abgelehnt wird. Übliche Werte sind 5% und 1%.
  7. Die Verteilung der Teststatistik unter der Nullhypothese teilt die möglichen Werte von T in diejenigen auf, für die die Nullhypothese abgelehnt wird – die sogenannten kritische Region– und diejenigen, für die dies nicht der Fall ist. Die Wahrscheinlichkeit des kritischen Bereichs ist α. Im Fall einer zusammengesetzten Nullhypothese ist die maximale Wahrscheinlichkeit des kritischen Bereichs α.
  8. Berechnen Sie aus den Beobachtungen den beobachteten Wert t obs der Teststatistik T .
  9. Entscheiden Sie sich dafür, entweder die Nullhypothese zugunsten der Alternative abzulehnen oder sie nicht abzulehnen. Die Entscheidungsregel besteht darin, die Nullhypothese H 0 wenn der beobachtete Wert t obs im kritischen Bereich liegt, und die Hypothese ansonsten zu akzeptieren oder "nicht abzulehnen".

Eine übliche alternative Formulierung dieses Prozesses lautet wie folgt:

  1. Berechnen Sie aus den Beobachtungen den beobachteten Wert t obs der Teststatistik T .
  2. Berechne das P-Wert. Dies ist die Wahrscheinlichkeit, unter der Nullhypothese eine Teststatistik zu erfassen, die mindestens so extrem ist wie die beobachtete (die maximale Wahrscheinlichkeit dieses Ereignisses, wenn die Hypothese zusammengesetzt ist).
  3. Lehnen Sie die Nullhypothese zugunsten der Alternativhypothese genau dann ab, wenn die P-value ist kleiner (oder gleich) dem Schwellenwert des Signifikanzniveaus (der ausgewählten Wahrscheinlichkeit) ( α ).

Das erstgenannte Verfahren war in der Vergangenheit von Vorteil, als nur Tabellen mit Teststatistiken bei üblichen Wahrscheinlichkeitsschwellen verfügbar waren. Es ermöglichte eine Entscheidung ohne die Berechnung einer Wahrscheinlichkeit. Es war für den Unterricht und für den betrieblichen Gebrauch ausreichend, aber für die Berichterstattung über die Ergebnisse mangelhaft. Letzteres Verfahren stützte sich auf umfangreiche Tabellen oder auf nicht immer verfügbare Rechenunterstützung. Die explizite Berechnung einer Wahrscheinlichkeit ist für das Reporting sinnvoll. Die Berechnungen werden nun trivial mit entsprechender Software durchgeführt.

Der Unterschied zwischen den beiden Prozessen, die auf das Beispiel des radioaktiven Koffers angewendet wurden (unten):

  • "Der Geigerzählerstand ist 10. Das Limit ist 9. Überprüfen Sie den Koffer."
  • "Der Geigerzählerstand ist hoch 97% der sicheren Koffer haben niedrigere Werte. Die Grenze liegt bei 95%. Überprüfen Sie den Koffer."

Ersterer Bericht ist ausreichend, letzterer gibt eine genauere Erläuterung der Daten und des Grundes für die Überprüfung des Koffers.

Der Unterschied zwischen dem Akzeptieren der Nullhypothese und dem schlichten Versäumnis, sie abzulehnen, ist wichtig. Die Terminologie "Fehler beim Zurückweisen" unterstreicht die Tatsache, dass ein nicht signifikantes Ergebnis keine Möglichkeit bietet, zu bestimmen, welche der beiden Hypothesen wahr ist, so dass alles, was geschlossen werden kann, ist, dass die Nullhypothese nicht abgelehnt wurde. Der Ausdruck "akzeptiere die Nullhypothese" könnte darauf hindeuten, dass sie einfach bewiesen wurde, weil sie nicht widerlegt wurde, ein logischer Trugschluss, der als das Argument der Unwissenheit bekannt ist. Wenn kein Test mit besonders hoher Trennschärfe verwendet wird, ist die Idee, die Nullhypothese zu "akzeptieren", wahrscheinlich falsch. Nichtsdestotrotz ist die Terminologie in der gesamten Statistik vorherrschend, wo die tatsächlich beabsichtigte Bedeutung gut verstanden wird.

Die hier beschriebenen Verfahren sind für die Berechnung vollkommen ausreichend. Sie vernachlässigen ernsthaft die Überlegungen zum Design von Experimenten. [6] [7]

Es ist besonders wichtig, dass geeignete Stichprobengrößen vor der Durchführung des Experiments geschätzt werden.

Der Begriff "Signifikanztest" wurde vom Statistiker Ronald Fisher geprägt. [8]

Interpretation Bearbeiten

Das P-Wert ist die Wahrscheinlichkeit, dass ein gegebenes Ergebnis (oder ein signifikanteres Ergebnis) unter der Nullhypothese auftritt. Bei einem Signifikanzniveau von 0,05 würde erwartet, dass die faire Münze die Nullhypothese in etwa 1 von 20 Tests (fälschlicherweise) ablehnt. Das P-Wert gibt nicht die Wahrscheinlichkeit an, dass eine der beiden Hypothesen richtig ist (eine häufige Quelle für Verwirrung). [9]

Wenn die P-Wert kleiner als der gewählte Signifikanzschwellenwert ist (gleichermaßen, wenn die beobachtete Teststatistik im kritischen Bereich liegt), dann sagen wir, dass die Nullhypothese auf dem gewählten Signifikanzniveau abgelehnt wird. Die Ablehnung der Nullhypothese ist eine Schlussfolgerung. Dies ist wie ein "schuldiges" Urteil in einem Strafprozess: Die Beweise reichen aus, um die Unschuld abzulehnen und somit eine Schuld implizieren.

Wenn die P-Wert ist nicht kleiner als der gewählte Signifikanzschwellenwert (gleichermaßen, wenn die beobachtete Teststatistik außerhalb des kritischen Bereichs liegt), reicht die Evidenz nicht aus, um eine Schlussfolgerung zu stützen. (Dies ähnelt einem "nicht schuldig"-Urteil.) Der Forscher berücksichtigt in der Regel besonders Fälle, in denen die P-Wert liegt nahe am Signifikanzniveau.

Im Beispiel mit der Teeprobe einer Dame (unten) verlangte Fisher von der Dame, alle Tassen Tee richtig zu kategorisieren, um die Schlussfolgerung zu rechtfertigen, dass das Ergebnis wahrscheinlich nicht zufällig ist. Sein Test ergab, dass, wenn die Dame effektiv zufällig rät (die Nullhypothese), eine Wahrscheinlichkeit von 1,4 % besteht, dass die beobachteten Ergebnisse (perfekt bestellter Tee) eintreten.

Die Ablehnung der Hypothese, dass ein großer Pfotenabdruck von einem Bären stammt, beweist nicht sofort die Existenz von Bigfoot. Hypothesentests betonen eher die Ablehnung, die auf einer Wahrscheinlichkeit basiert, als die Annahme, die zusätzliche logische Schritte erfordert.

„Die Wahrscheinlichkeit, die Nullhypothese abzulehnen, hängt von fünf Faktoren ab: ob der Test ein- oder zweiseitig ist, dem Signifikanzniveau, der Standardabweichung, dem Betrag der Abweichung von der Nullhypothese und der Anzahl der Beobachtungen. " [10] Diese Faktoren sind eine Quelle der Kritik Faktoren unter der Kontrolle des Experimentators/Analytikers geben den Ergebnissen den Anschein von Subjektivität.

Verwendung und Bedeutung Bearbeiten

Statistiken sind bei der Analyse der meisten Datensammlungen hilfreich. Dies gilt auch für Hypothesentests, die Schlussfolgerungen auch dann rechtfertigen können, wenn keine wissenschaftliche Theorie existiert. Im Beispiel mit Lady Tasting Tea war es "offensichtlich", dass kein Unterschied zwischen (Milch in Tee gegossen) und (Tee in Milch gegossen) bestand. Die Daten widersprachen dem "Offensichtlichen".

Zu den realen Anwendungen des Hypothesentests gehören: [11]

  • Testen, ob mehr Männer als Frauen unter Albträumen leiden
  • Feststellung der Urheberschaft von Dokumenten
  • Bewertung der Wirkung des Vollmonds auf das Verhalten
  • Bestimmung der Reichweite, in der eine Fledermaus ein Insekt durch Echo erkennen kann
  • Entscheidung, ob Krankenhausteppiche zu mehr Infektionen führen
  • Auswahl der besten Mittel, um mit dem Rauchen aufzuhören
  • Prüfen, ob Autoaufkleber das Verhalten von Autobesitzern widerspiegeln
  • Testen der Behauptungen von Handschriftanalysten

Statistische Hypothesentests spielen eine wichtige Rolle in der gesamten Statistik und in der statistischen Inferenz. Lehmann (1992) beispielsweise sagt in einer Rezension des Grundlagenpapiers von Neyman und Pearson (1933): „Trotz ihrer Mängel wird das neue Paradigma, das im Papier von 1933 formuliert wurde, und die vielen Entwicklungen, die in seinem Rahmen durchgeführt wurden, weiterhin in Theorie und Praxis der Statistik eine zentrale Rolle spielen und dies in absehbarer Zeit zu erwarten ist".

Signifikanztests sind das bevorzugte statistische Werkzeug in einigen experimentellen Sozialwissenschaften (über 90 % der Artikel in der Zeitschrift für Angewandte Psychologie Anfang der 90er Jahre). [12] Andere Bereiche haben die Schätzung von Parametern (z. B. Effektstärke) begünstigt. Signifikanztests werden als Ersatz für den traditionellen Vergleich von Vorhersagewert und Versuchsergebnis im Kern der wissenschaftlichen Methode verwendet. Wenn die Theorie nur das Vorzeichen einer Beziehung vorhersagen kann, kann ein gerichteter (einseitiger) Hypothesentest so konfiguriert werden, dass nur ein statistisch signifikantes Ergebnis die Theorie unterstützt. Diese Form der Theoriebewertung ist die am stärksten kritisierte Anwendung des Hypothesentests.

Vorsichtshinweise Bearbeiten

"Wenn die Regierung statistische Verfahren verlangen würde, um Warnhinweise wie auf Drogen zu tragen, hätten die meisten Inferenzmethoden tatsächlich lange Labels." [13] Diese Vorsicht gilt für Hypothesentests und deren Alternativen.

Der erfolgreiche Hypothesentest ist mit einer Wahrscheinlichkeit und einer Typ-I-Fehlerrate verbunden. Das Fazit Macht falsch liegen.

Die Schlussfolgerung des Tests ist nur so solide wie die zugrunde liegende Probe. Das Design des Experiments ist kritisch. Es wurden eine Reihe unerwarteter Wirkungen beobachtet, darunter:

  • Der clevere Hans-Effekt. Ein Pferd schien in der Lage zu sein, einfache Arithmetik zu machen.
  • Der Hawthorne-Effekt. Industriearbeiter waren bei besserer Beleuchtung produktiver und bei schlechterer Beleuchtung am produktivsten.
  • Der Placebo-Effekt. Pillen ohne medizinisch aktive Inhaltsstoffe waren bemerkenswert wirksam.

Eine statistische Analyse irreführender Daten führt zu irreführenden Schlussfolgerungen. Das Thema Datenqualität kann subtiler sein. In der Prognose gibt es beispielsweise keine Einigkeit über ein Maß für die Prognosegenauigkeit. Ohne eine Konsensmessung ist keine auf Messungen basierende Entscheidung unumstritten.

Das Buch Wie man mit Statistiken lügt [14] [15] ist das beliebteste Buch über Statistik, das jemals veröffentlicht wurde. [16] Es berücksichtigt nicht viel Hypothesentests, aber seine Warnungen sind anwendbar, einschließlich: Viele Behauptungen werden auf der Grundlage von Stichproben aufgestellt, die zu klein sind, um zu überzeugen. Wenn ein Bericht die Stichprobengröße nicht erwähnt, seien Sie zweifelhaft.

Hypothesentests dienen als Filter für statistische Schlussfolgerungen, nur die Ergebnisse, die eine Wahrscheinlichkeitsschwelle erfüllen, können veröffentlicht werden. Die Wirtschaftswissenschaften dienen auch als Publikationsfilter, es dürfen nur die für Autor und Fördergeber günstigen Ergebnisse zur Publikation eingereicht werden. Der Einfluss der Filterung auf die Veröffentlichung wird als Publikationsbias bezeichnet. Ein damit verbundenes Problem sind Mehrfachtests (manchmal in Verbindung mit Data Mining), bei denen eine Vielzahl von Tests für eine Vielzahl möglicher Effekte auf einen einzigen Datensatz angewendet und nur diejenigen mit einem signifikanten Ergebnis gemeldet werden. Diese werden oft durch die Verwendung von Multiplizitätskorrekturverfahren behandelt, die die familienweise Fehlerrate (FWER) oder die falsche Entdeckungsrate (FDR) kontrollieren.

Diejenigen, die kritische Entscheidungen auf der Grundlage der Ergebnisse eines Hypothesentests treffen, sollten sich eher die Details ansehen als die Schlussfolgerungen allein. In den physikalischen Wissenschaften werden die meisten Ergebnisse nur dann vollständig akzeptiert, wenn sie unabhängig bestätigt werden. Der allgemeine Ratschlag zur Statistik lautet: "Zahlen lügen nie, aber Lügner zahlen" (anonym).

Menschliches Geschlechterverhältnis Bearbeiten

Die früheste Anwendung statistischer Hypothesentests wird im Allgemeinen der Frage zugeschrieben, ob männliche und weibliche Geburten gleich wahrscheinlich sind (Nullhypothese), die im 18. (1770er Jahre). [18]

Arbuthnot untersuchte die Geburtsregister in London für jedes der 82 Jahre von 1629 bis 1710 und wandte den Vorzeichentest an, einen einfachen nicht-parametrischen Test. [19] [20] [21] In jedem Jahr überstieg die Zahl der in London geborenen Männer die Zahl der Frauen. Betrachtet man mehr männliche oder mehr weibliche Geburten als gleich wahrscheinlich, beträgt die Wahrscheinlichkeit des beobachteten Ergebnisses 0,5 82 , oder in modernen Begriffen etwa 1 zu 4.8360.0000.0000.0000.000.000, dies ist die P-Wert. Arbuthnot folgerte, dass dies zu gering sei, um dem Zufall zuzuschreiben, sondern vielmehr der göttlichen Vorsehung geschuldet sein müsse: "Daher folgt, dass es die Kunst ist, die regiert, nicht der Zufall." In modernen Begriffen wies er die Nullhypothese gleich wahrscheinlicher männlicher und weiblicher Geburten am P = 1/2 82 Signifikanzniveau.

Laplace betrachtete die Statistik von fast einer halben Million Geburten. Die Statistik zeigte einen Überschuss an Jungen im Vergleich zu Mädchen. [22] [23] Er schloss durch Berechnung von a P-Wert, dass der Überschuss ein realer, aber ungeklärter Effekt war. [24]

Dame, die Tee verkostet Bearbeiten

In einem berühmten Beispiel für das Testen von Hypothesen, bekannt als Dame, die Tee verkostet, [25] Dr. Muriel Bristol, eine Kollegin von Fisher, behauptete, erkennen zu können, ob der Tee oder die Milch zuerst in eine Tasse gegeben wurde. Fisher schlug vor, ihr acht Tassen, vier von jeder Sorte, in zufälliger Reihenfolge zu geben. Man könnte dann fragen, wie wahrscheinlich es ist, dass sie die richtige Nummer bekommt, aber nur zufällig. Die Nullhypothese war, dass die Dame keine solche Fähigkeit hatte. Die Teststatistik war eine einfache Zählung der Anzahl der Erfolge bei der Auswahl der 4 Tassen. Der kritische Bereich war der Einzelfall von 4 Erfolgen von 4 möglichen basierend auf einem konventionellen Wahrscheinlichkeitskriterium (< 5%). Ein Muster von 4 Erfolgen entspricht 1 von 70 möglichen Kombinationen (p≈ 1,4%). Fisher behauptete, dass keine alternative Hypothese (jemals) erforderlich sei. Die Dame identifizierte jede Tasse korrekt, [26] was als statistisch signifikantes Ergebnis angesehen würde.

Gerichtsverhandlung Bearbeiten

Ein statistisches Testverfahren ist mit einem Strafprozess vergleichbar, ein Angeklagter gilt als nicht schuldig, solange seine Schuld nicht nachgewiesen ist. Der Staatsanwalt versucht, die Schuld des Angeklagten zu beweisen. Erst wenn genügend Beweise für die Anklage vorliegen, wird der Angeklagte verurteilt.

Die Unschuldshypothese wird nur dann abgelehnt, wenn ein Irrtum sehr unwahrscheinlich ist, weil man einen unschuldigen Angeklagten nicht verurteilen will. Ein solcher Fehler heißt Fehler erster Art (d. h. die Verurteilung einer unschuldigen Person) und das Auftreten dieses Fehlers wird als selten kontrolliert. Als Folge dieses asymmetrischen Verhaltens ist an Fehler zweiter Art (Freispruch einer Person, die das Verbrechen begangen hat) ist häufiger.

h0 ist wahr
Wirklich nicht schuldig
h1 ist wahr
Wirklich schuldig
Akzeptiere die Nullhypothese
Freispruch
Richtige Entscheidung Fehlentscheidung
Fehler Typ II
Nullhypothese ablehnen
Überzeugung
Fehlentscheidung
Fehler Typ I
Richtige Entscheidung

Ein Strafprozess kann als einer oder beide von zwei Entscheidungsprozessen angesehen werden: schuldig vs. nicht schuldig oder Beweis vs. Einerseits wird der Angeklagte beurteilt, andererseits wird die Leistung der Anklage (die die Beweislast trägt) beurteilt. Ein Hypothesentest kann entweder als Beurteilung einer Hypothese oder als Beurteilung von Beweisen angesehen werden.

Philosophenbohnen Bearbeiten

Das folgende Beispiel wurde von einem Philosophen erstellt, der Generationen von wissenschaftlichen Methoden beschreibt, bevor Hypothesentests formalisiert und populär gemacht wurden. [27]

Nur wenige Bohnen dieser Handvoll sind weiß.
Die meisten Bohnen in dieser Tüte sind weiß.
Daher: Vermutlich wurden diese Bohnen aus einer anderen Tüte entnommen.
Dies ist eine hypothetische Schlussfolgerung.

Die Bohnen im Sack sind die Bevölkerung. Die Handvoll sind die Probe. Die Nullhypothese ist, dass die Stichprobe aus der Grundgesamtheit stammt. Das Kriterium für die Ablehnung der Nullhypothese ist der "offensichtliche" Unterschied im Aussehen (ein informeller Unterschied im Mittelwert). Das interessante Ergebnis ist, dass die Betrachtung einer realen Population und einer realen Stichprobe eine imaginäre Tasche erzeugte. Der Philosoph dachte eher an Logik als an Wahrscheinlichkeit. Um ein echter statistischer Hypothesentest zu sein, erfordert dieses Beispiel die Formalitäten einer Wahrscheinlichkeitsberechnung und einen Vergleich dieser Wahrscheinlichkeit mit einem Standard.

Eine einfache Verallgemeinerung des Beispiels betrachtet eine gemischte Tüte Bohnen und eine Handvoll, die entweder sehr wenige oder sehr viele weiße Bohnen enthalten. Die Verallgemeinerung berücksichtigt beide Extreme. Es bedarf weiterer Berechnungen und weiterer Vergleiche, um zu einer formalen Antwort zu kommen, aber die Kernphilosophie bleibt unverändert Wenn die Zusammensetzung der Handvoll stark von der der Tüte abweicht, stammt die Probe wahrscheinlich aus einer anderen Tüte. Das ursprüngliche Beispiel wird als einseitiger oder einseitiger Test bezeichnet, während die Verallgemeinerung als zweiseitiger oder zweiseitiger Test bezeichnet wird.

Die Aussage beruht auch auf der Schlussfolgerung, dass die Stichprobe zufällig war. Wenn jemand die Tüte durchsucht hätte, um weiße Bohnen zu finden, würde dies erklären, warum die Handvoll so viele weiße Bohnen hatte, und auch erklären, warum die Anzahl der weißen Bohnen in der Tüte aufgebraucht war (obwohl die Tüte wahrscheinlich angenommen werden soll .) viel größer als eine Hand).

Hellseherisches Kartenspiel Bearbeiten

Eine Person (das Subjekt) wird auf Hellsichtigkeit getestet. Ihnen wird 25 Mal die Rückseite einer zufällig gewählten Spielkarte gezeigt und gefragt, zu welcher der vier Farben sie gehört. Die Anzahl der Treffer oder richtigen Antworten wird genannt x.

Während wir versuchen, Beweise für ihre Hellsichtigkeit zu finden, lautet die Nullhypothese vorerst, dass die Person nicht hellsichtig ist. [28] Die Alternative lautet: Die Person ist (mehr oder weniger) hellsichtig.

Wenn die Nullhypothese gültig ist, kann die Testperson nur raten. Für jede Karte beträgt die Wahrscheinlichkeit (relative Häufigkeit) des Erscheinens einer einzelnen Farbe 1/4. Wenn die Alternative gültig ist, wird die Testperson die Farbe mit einer Wahrscheinlichkeit von mehr als 1/4 richtig vorhersagen. Wir nennen die Wahrscheinlichkeit richtig zu raten P. Die Hypothesen lauten dann:

Wenn die Testperson alle 25 Karten richtig vorhersagt, betrachten wir sie als hellsichtig und verwerfen die Nullhypothese. Also auch mit 24 oder 23 Treffern. Bei nur 5 oder 6 Treffern gibt es dagegen keinen Grund, sie so zu betrachten. Aber was ist mit 12 Treffern oder 17 Treffern? Was ist die kritische Zahl, C, von Treffern, ab wann halten wir das Thema für hellsichtig? Wie bestimmen wir den kritischen Wert C? Mit der Wahl C=25 (d.h. wir akzeptieren nur Hellsehen, wenn alle Karten richtig vorhergesagt wurden) sind wir kritischer als mit C=10. Im ersten Fall werden fast keine Testpersonen als hellsichtig erkannt, im zweiten Fall besteht eine bestimmte Anzahl den Test. In der Praxis entscheidet man selbst, wie kritisch man ist. Das heißt, man entscheidet, wie oft man einen Fehler erster Art akzeptiert – einen falsch positiven oder Typ-I-Fehler. Mit C = 25 ist die Wahrscheinlichkeit eines solchen Fehlers:

und daher sehr klein. Die Wahrscheinlichkeit eines Fehlalarms ist die Wahrscheinlichkeit, alle 25 Mal zufällig richtig zu erraten.

Weniger kritisch sein, mit C=10, ergibt:

Daher, C = 10 ergibt eine viel größere Wahrscheinlichkeit für falsch-positiv.

Bevor der Test tatsächlich durchgeführt wird, wird die maximal akzeptable Wahrscheinlichkeit eines Fehlers vom Typ I (α) festgestellt wird. Typischerweise werden Werte im Bereich von 1% bis 5% gewählt. (Wenn die maximal akzeptable Fehlerrate null ist, ist eine unendliche Anzahl richtiger Schätzungen erforderlich.) Abhängig von dieser Fehlerrate vom Typ 1 ist der kritische Wert C ist berechnet. Wenn wir beispielsweise eine Fehlerquote von 1 % wählen, C berechnet sich so:

Aus allen Zahlen c wählen wir mit dieser Eigenschaft die kleinste, um die Wahrscheinlichkeit eines Fehlers vom Typ II, eines falschen Negativs, zu minimieren. Für das obige Beispiel wählen wir: c = 13 .

Radioaktiver Koffer Bearbeiten

Betrachten Sie als Beispiel, ob ein Koffer radioaktives Material enthält. Unter einem Geigerzähler platziert, erzeugt es 10 Zählungen pro Minute. Die Nullhypothese ist, dass sich kein radioaktives Material im Koffer befindet und alle gemessenen Zählungen auf die für die Umgebungsluft typische Umgebungsradioaktivität und harmlose Objekte zurückzuführen sind. Wir können dann berechnen, wie wahrscheinlich es ist, dass wir 10 Zählungen pro Minute beobachten würden, wenn die Nullhypothese wahr wäre. Wenn die Nullhypothese (sagen wir) durchschnittlich 9 Zählungen pro Minute vorhersagt, dann besteht gemäß der für radioaktiven Zerfall typischen Poisson-Verteilung eine Wahrscheinlichkeit von etwa 41 %, 10 oder mehr Zählungen zu erfassen. Somit können wir sagen, dass der Koffer mit der Nullhypothese vereinbar ist (dies garantiert nicht, dass kein radioaktives Material vorhanden ist, nur dass wir nicht genügend Beweise dafür haben). Auf der anderen Seite, wenn die Nullhypothese 3 Zählungen pro Minute vorhersagt (wofür die Poisson-Verteilung nur eine Wahrscheinlichkeit von 0,1% für die Aufzeichnung von 10 oder mehr Zählungen vorhersagt), dann ist der Koffer nicht mit der Nullhypothese kompatibel, und wahrscheinlich sind andere Faktoren dafür verantwortlich die Maße zu erstellen.

Der Test bestätigt nicht direkt das Vorhandensein von radioaktivem Material. EIN erfolgreich test behauptet, dass die Behauptung, dass kein radioaktives Material vorhanden ist, angesichts der Ablesung unwahrscheinlich ist (und daher . ). Das Doppelnegativ (das Widerlegen der Nullhypothese) der Methode ist verwirrend, aber die Verwendung eines Gegenbeispiels zur Widerlegung ist mathematische Standardpraxis. Der Reiz der Methode liegt in ihrer Praktikabilität. Wir kennen (aus Erfahrung) den erwarteten Zählbereich, wenn nur Umgebungsradioaktivität vorhanden ist, daher können wir sagen, dass eine Messung ungewöhnlich groß. Statistik formalisiert nur das Intuitive, indem sie Zahlen anstelle von Adjektiven verwendet. Wahrscheinlich kennen wir die Eigenschaften der radioaktiven Koffer nicht. Wir gehen einfach davon aus, dass sie größere Messwerte liefern.

Um die Intuition ein wenig zu formalisieren: Radioaktivität wird vermutet, wenn die Geigerzahl mit dem Koffer zu den höchsten (5% oder 1%) der Geigerzahlen gehört, die allein mit Umgebungsstrahlung gemacht wurden. Dies macht keine Annahmen über die Verteilung der Zählungen. Viele Beobachtungen der Umgebungsstrahlung sind erforderlich, um gute Wahrscheinlichkeitsschätzungen für seltene Ereignisse zu erhalten.

Der hier beschriebene Test ist vollständiger der statistische Signifikanztest der Nullhypothese. Die Nullhypothese stellt das dar, was wir standardmäßig glauben würden, bevor wir irgendwelche Beweise sehen. Statistische Signifikanz ist ein mögliches Ergebnis des Tests, das erklärt wird, wenn die beobachtete Stichprobe wahrscheinlich nicht zufällig aufgetreten ist, wenn die Nullhypothese wahr wäre. Der Name des Tests beschreibt seine Formulierung und sein mögliches Ergebnis. Ein Merkmal des Tests ist seine klare Entscheidung: die Nullhypothese abzulehnen oder nicht. Ein berechneter Wert wird mit einem Schwellenwert verglichen, der aus dem tolerierbaren Fehlerrisiko bestimmt wird.

Die folgenden Definitionen basieren hauptsächlich auf der Darstellung im Buch von Lehmann und Romano: [4]

Statistische Hypothese Eine Aussage über die Parameter, die eine Population (keine Stichprobe) beschreiben. Statistik Ein Wert, der aus einer Probe ohne unbekannte Parameter berechnet wurde, oft um die Probe zu Vergleichszwecken zusammenzufassen. Einfache Hypothese Jede Hypothese, die die Populationsverteilung vollständig spezifiziert. Zusammengesetzte Hypothese Jede Hypothese, die nicht geben Sie die Bevölkerungsverteilung vollständig an. Nullhypothese (H0) Eine Hypothese, die mit einem Widerspruch zu einer Theorie verbunden ist, die man beweisen möchte. Positive Daten Daten, die es dem Prüfer ermöglichen, eine Nullhypothese abzulehnen. Alternativhypothese (H1) Eine Hypothese (oft zusammengesetzt), die mit einer Theorie verbunden ist, die man beweisen möchte. Statistischer Test Ein Verfahren, dessen Eingaben Stichproben sind und dessen Ergebnis eine Hypothese ist. Akzeptanzbereich Die Menge der Werte der Teststatistik, für die wir die Nullhypothese nicht ablehnen. Ablehnungsbereich / Kritischer Bereich Der Wertesatz der Teststatistik, für den die Nullhypothese abgelehnt wird. Kritischer Wert Der Schwellenwert, der die Akzeptanz- und Ablehnungsbereiche für die Teststatistik begrenzt. Trennschärfe eines Tests (1 − β) Die Wahrscheinlichkeit des Tests, die Nullhypothese korrekt abzulehnen, wenn die Alternativhypothese wahr ist. Das Komplement der Falsch-Negativ-Rate, β. Macht heißt Empfindlichkeit in der Biostatistik. ("Dies ist ein empfindlicher Test. Da das Ergebnis negativ ist, können wir mit Sicherheit sagen, dass der Patient die Erkrankung nicht hat.") Siehe Sensitivität und Spezifität sowie Fehler vom Typ I und Typ II für umfassende Definitionen. Größe Für einfache Hypothesen ist dies die Testwahrscheinlichkeit von falsch Ablehnung der Nullhypothese. Die False-Positive-Rate. Bei zusammengesetzten Hypothesen ist dies der Höchstwert der Wahrscheinlichkeit, die Nullhypothese über alle von der Nullhypothese abgedeckten Fälle abzulehnen. Das Komplement der Falsch-Positiv-Rate wird als bezeichnet Spezifität in der Biostatistik. ("Dies ist ein spezifischer Test. Da das Ergebnis positiv ist, können wir mit Sicherheit sagen, dass der Patient die Krankheit hat.") Siehe Sensitivität und Spezifität und Fehler vom Typ I und Typ II für umfassende Definitionen. Signifikanzniveau eines Tests (α) Es ist die obere Schranke, die der Größe eines Tests auferlegt wird. Sein Wert wird vom Statistiker ausgewählt, bevor er sich die Daten ansieht oder einen bestimmten zu verwendenden Test auswählt. Dies ist die maximale Exposition gegenüber irrtümlicher Zurückweisung von H0 dass sie bereit sind zu akzeptieren. H . testen0 auf Signifikanzniveau α bedeutet Testen von H0 mit einem Test, dessen Größe nicht überschreitet α. In den meisten Fällen verwendet man Tests, deren Größe dem Signifikanzniveau entspricht. P-Wert Die Wahrscheinlichkeit, unter der Annahme, dass die Nullhypothese wahr ist, ein Ergebnis zu beobachten, das mindestens so extrem wie die Teststatistik ist. Bei einer zusammengesetzten Nullhypothese die Worst-Case-Wahrscheinlichkeit. Statistischer Signifikanztest Ein Vorläufer des statistischen Hypothesentests (siehe Abschnitt Ursprünge). Ein experimentelles Ergebnis wurde als statistisch signifikant bezeichnet, wenn eine Stichprobe hinreichend inkonsistent mit der (Null-)Hypothese war. Dies wurde verschiedentlich als gesunder Menschenverstand, als pragmatische Heuristik zur Identifizierung aussagekräftiger experimenteller Ergebnisse, als Konvention zur Festlegung eines Schwellenwerts für statistische Beweise oder als Methode zum Ziehen von Schlussfolgerungen aus Daten angesehen. Der statistische Hypothesentest fügte dem Konzept mathematische Strenge und philosophische Konsistenz hinzu, indem er die Alternativhypothese explizit machte. Der Begriff wird lose für die moderne Version verwendet, die jetzt Teil des statistischen Hypothesentests ist. Konservativer Test Ein Test ist konservativ, wenn für ein gegebenes nominelles Signifikanzniveau die wahre Wahrscheinlichkeit von falsch die Ablehnung der Nullhypothese ist nie größer als das Nominalniveau. Exakter Test Ein Test, bei dem das Signifikanzniveau oder der kritische Wert exakt, d. h. ohne Näherung, berechnet werden kann. In manchen Kontexten ist dieser Begriff auf Tests beschränkt, die auf kategoriale Daten angewendet werden, und auf Permutationstests, bei denen Berechnungen durch vollständige Aufzählung aller möglichen Ergebnisse und ihrer Wahrscheinlichkeiten durchgeführt werden.

Ein statistischer Hypothesentest vergleicht eine Teststatistik (z oder T für Beispiele) auf einen Schwellenwert. Die Teststatistik (die Formel in der folgenden Tabelle) basiert auf der Optimalität. Bei einem festen Niveau der Fehlerquote vom Typ I minimiert die Verwendung dieser Statistiken die Fehlerquote vom Typ II (entspricht der Maximierung der Aussagekraft). Die folgenden Begriffe beschreiben Tests im Hinblick auf eine solche Optimalität:

Stärkster Test für eine gegebene Größe oder Signifikanzniveau, der Test mit der größten Trennschärfe (Zurückweisungswahrscheinlichkeit) für einen gegebenen Wert des/der getesteten Parameter(s), der in der Alternativhypothese enthalten ist. Einheitlich stärkster Test (UMP) Ein Test mit den größten Energie für alle Werte des/der getesteten Parameter(s), die in der Alternativhypothese enthalten sind.

Statistische Hypothesentests sind eine Schlüsseltechnik sowohl der frequentistischen Inferenz als auch der Bayesschen Inferenz, obwohl die beiden Arten von Inferenz bemerkenswerte Unterschiede aufweisen. Statistische Hypothesentests definieren ein Verfahren, das die Wahrscheinlichkeit von falschen entscheiden dass eine Standardposition (Nullhypothese) falsch ist. Das Verfahren basiert darauf, wie wahrscheinlich es wäre, dass eine Reihe von Beobachtungen auftritt, wenn die Nullhypothese wahr wäre. Beachten Sie, dass diese Wahrscheinlichkeit, eine falsche Entscheidung zu treffen, nicht die Wahrscheinlichkeit, dass die Nullhypothese wahr ist, noch ob eine bestimmte Alternativhypothese wahr ist. Dies steht im Gegensatz zu anderen möglichen Techniken der Entscheidungstheorie, bei denen die Null- und die Alternativhypothese gleichberechtigter behandelt werden.

Ein naiver Bayes-Ansatz zum Testen von Hypothesen besteht darin, Entscheidungen auf der Grundlage der späteren Wahrscheinlichkeit zu treffen, [29] [30] aber dies scheitert beim Vergleich von Punkt- und kontinuierlichen Hypothesen. Andere Ansätze zur Entscheidungsfindung, wie die Bayessche Entscheidungstheorie, versuchen, die Konsequenzen falscher Entscheidungen über alle Möglichkeiten hinweg auszugleichen, anstatt sich auf eine einzige Nullhypothese zu konzentrieren. Über die Entscheidungstheorie und optimale Entscheidungen, von denen einige wünschenswerte Eigenschaften aufweisen, stehen eine Reihe anderer Ansätze zur Verfügung, um eine datenbasierte Entscheidung zu treffen. Das Testen von Hypothesen ist jedoch in vielen Bereichen der Wissenschaft ein vorherrschender Ansatz für die Datenanalyse. Erweiterungen der Theorie des Hypothesentests umfassen die Untersuchung der Power von Tests, d. h. der Wahrscheinlichkeit, die Nullhypothese korrekt abzulehnen, wenn sie falsch ist. Solche Überlegungen können zum Zweck der Bestimmung der Stichprobengröße vor der Datenerhebung verwendet werden.

Frühe Verwendung Bearbeiten

Während das Testen von Hypothesen zu Beginn des 20. Jahrhunderts populär wurde, wurden frühe Formen im 18. Jahrhundert verwendet. Die erste Verwendung wird John Arbuthnot (1710) zugeschrieben, [31] gefolgt von Pierre-Simon Laplace (1770er Jahre), bei der Analyse des menschlichen Geschlechterverhältnisses bei der Geburt siehe § Menschliches Geschlechterverhältnis.

Moderne Ursprünge und frühe Kontroversen Bearbeiten

Moderne Signifikanztests sind größtenteils das Produkt von Karl Pearson (P-Wert, Pearsons Chi-Quadrat-Test), William Sealy Gosset (Students t-Verteilung) und Ronald Fisher ("Nullhypothese", Varianzanalyse, "Signifikanztest"), während der Hypothesentest von Jerzy Neyman und Egon Pearson entwickelt wurde (Sohn von Karl). Ronald Fisher begann sein Leben in der Statistik als Bayesianer (Zabell 1992), aber Fisher war bald desillusioniert von der damit verbundenen Subjektivität (nämlich der Verwendung des Prinzips der Indifferenz bei der Bestimmung früherer Wahrscheinlichkeiten) und versuchte, einen "objektiveren" Ansatz für induktive Inferenz. [32]

Fisher war ein Agrarstatistiker, der auf rigoroses experimentelles Design und Methoden Wert legte, um ein Ergebnis aus wenigen Stichproben unter Annahme einer Gaußschen Verteilung zu extrahieren. Neyman (der sich mit dem jüngeren Pearson zusammengetan hat) betonte mathematische Strenge und Methoden, um mehr Ergebnisse aus vielen Stichproben und eine breitere Palette von Verteilungen zu erhalten. Moderne Hypothesentests sind eine inkonsistente Mischung aus der Formulierung, den Methoden und der Terminologie von Fisher vs. Neyman/Pearson, die im frühen 20. Jahrhundert entwickelt wurden.

Fisher machte den "Signifikanztest" populär. Er benötigte eine Nullhypothese (entsprechend einer Populationshäufigkeitsverteilung) und eine Stichprobe. Seine (jetzt vertrauten) Berechnungen bestimmten, ob die Nullhypothese abgelehnt werden sollte oder nicht. Signifikanztests verwendeten keine alternative Hypothese, daher gab es kein Konzept für einen Fehler vom Typ II.

Das P-Wert wurde als informeller, aber objektiver Index entwickelt, der einem Forscher helfen soll, (basierend auf anderem Wissen) zu bestimmen, ob er zukünftige Experimente modifizieren oder seinen Glauben an die Nullhypothese stärken soll. [33] Hypothesentests (und Typ-I/II-Fehler) wurde von Neyman und Pearson als objektivere Alternative zu Fisher entwickelt P-Wert, auch dazu gedacht, das Forscherverhalten zu bestimmen, jedoch ohne dass der Forscher eine induktive Schlussfolgerung erfordert. [34] [35]

Neyman & Pearson betrachteten ein anderes Problem (das sie "Hypothesentests" nannten). Sie betrachteten zunächst zwei einfache Hypothesen (beide mit Häufigkeitsverteilungen). Sie berechneten zwei Wahrscheinlichkeiten und wählten typischerweise die Hypothese aus, die mit der höheren Wahrscheinlichkeit verbunden ist (die Hypothese, die mit größerer Wahrscheinlichkeit die Stichprobe generiert hat). Ihre Methode wählte immer eine Hypothese aus. Es ermöglichte auch die Berechnung beider Arten von Fehlerwahrscheinlichkeiten.

Fisher und Neyman/Pearson prallten erbittert aufeinander. Neyman/Pearson betrachteten ihre Formulierung als verbesserte Verallgemeinerung der Signifikanzprüfung. (Das definierende Papier [34] war abstrakt. Mathematiker haben die Theorie jahrzehntelang verallgemeinert und verfeinert. [36] ) Fisher hielt sie für nicht anwendbar auf die wissenschaftliche Forschung, weil oft stellt sich im Verlauf des Experiments heraus, dass die anfänglichen Annahmen über die Nullhypothese aufgrund unerwarteter Fehlerquellen fragwürdig sind.Er glaubte, dass die Verwendung von starren Ablehnungs-/Akzeptanz-Entscheidungen auf der Grundlage von Modellen, die vor der Datensammlung formuliert wurden, mit diesem gängigen Szenario, mit dem Wissenschaftler konfrontiert sind, nicht vereinbar ist und Versuche, diese Methode auf die wissenschaftliche Forschung anzuwenden, zu Massenverwirrung führen würden. [37]

Der Streit zwischen Fisher und Neyman-Pearson wurde aus philosophischen Gründen geführt, die von einem Philosophen als Streit über die richtige Rolle von Modellen bei der statistischen Inferenz charakterisiert wurden. [38]

Ereignisse griffen ein: Neyman nahm eine Position in der westlichen Hemisphäre an, brach seine Partnerschaft mit Pearson und trennte die Streitenden (die dasselbe Gebäude besetzt hatten) um einen Großteil des Planetendurchmessers. Der Zweite Weltkrieg sorgte für eine Pause in der Debatte. Der Streit zwischen Fisher und Neyman endete (nach 27 Jahren ungelöst) mit Fishers Tod im Jahr 1962. Neyman schrieb eine viel beachtete Laudatio. [39] Einige von Neymans späteren Veröffentlichungen berichteten P-Werte und Signifikanzniveaus. [40]

Die moderne Version des Hypothesentests ist eine Mischung aus den beiden Ansätzen, die aus der Verwirrung der Autoren statistischer Lehrbücher (wie von Fisher vorhergesagt) ab den 1940er Jahren resultierte. [41] (Aber die Signalerkennung verwendet beispielsweise immer noch die Neyman/Pearson-Formulierung.) Große konzeptionelle Unterschiede und viele weitere Vorbehalte zusätzlich zu den oben genannten wurden ignoriert. Neyman und Pearson lieferten die stärkere Terminologie, die strengere Mathematik und die konsistentere Philosophie, aber das heute in der einführenden Statistik gelehrte Fach hat mehr Ähnlichkeiten mit Fishers Methode als mit ihrer. [42] Diese Geschichte erklärt die inkonsistente Terminologie (Beispiel: Die Nullhypothese wird nie akzeptiert, aber es gibt einen Akzeptanzbereich).

Irgendwann um 1940 [41] in dem offensichtlichen Versuch, Forschern eine "unkontroverse" [43] Möglichkeit zu bieten, ihren Kuchen zu essen und ihn auch zu essen, begannen die Autoren statistischer Lehrbücher, diese beiden Strategien anonym zu P-Wert anstelle der Teststatistik (oder Daten), um gegen das Neyman-Pearson-"Signifikanzniveau" zu testen. [41] Daher wurden die Forscher ermutigt, die Stärke ihrer Daten anhand einer Nullhypothese abzuleiten P-Werte, während sie gleichzeitig denken, dass sie die Objektivität nach der Datenerhebung beibehalten, die durch Hypothesentests bereitgestellt wird. Es wurde dann üblich, dass die Nullhypothese, die ursprünglich eine realistische Forschungshypothese war, fast ausschließlich als Strohmann-„Null“-Hypothese verwendet wurde (eine, bei der eine Behandlung unabhängig vom Kontext keine Wirkung hat). [44]

Ein Vergleich zwischen Fisherian, Frequentist (Neyman-Pearson)
# Fishers Nullhypothesentest Neyman-Pearson-Entscheidungstheorie
1 Stellen Sie eine statistische Nullhypothese auf. Die Null muss keine Null-Hypothese sein (d. h. Null-Differenz). Stellen Sie zwei statistische Hypothesen H1 und H2 auf und entscheiden Sie vor dem Experiment auf der Grundlage subjektiver Kosten-Nutzen-Überlegungen über α, β und die Stichprobengröße. Diese definieren einen Ablehnungsbereich für jede Hypothese.
2 Geben Sie das genaue Signifikanzniveau an (z. B. p = 0,051 oder p = 0,049). Verwenden Sie kein herkömmliches 5%-Niveau und sprechen Sie nicht davon, Hypothesen zu akzeptieren oder abzulehnen. Wenn das Ergebnis "nicht signifikant" ist, ziehen Sie keine Schlussfolgerungen und treffen Sie keine Entscheidungen, sondern setzen Sie die Beurteilung aus, bis weitere Daten verfügbar sind. Wenn die Daten in den Ablehnungsbereich von H1 fallen, akzeptieren Sie H2, andernfalls akzeptieren Sie H1. Beachten Sie, dass das Akzeptieren einer Hypothese nicht bedeutet, dass Sie daran glauben, sondern nur, dass Sie so tun, als ob sie wahr wäre.
3 Verwenden Sie dieses Verfahren nur, wenn wenig über das vorliegende Problem bekannt ist, und nur um vorläufige Schlussfolgerungen im Rahmen eines Versuchs, die experimentelle Situation zu verstehen, zu ziehen. Die Nützlichkeit des Verfahrens beschränkt sich unter anderem auf Situationen, in denen Sie eine Disjunktion von Hypothesen haben (z.

Frühe Entscheidungen der Nullhypothese Bearbeiten

Paul Meehl hat argumentiert, dass die erkenntnistheoretische Bedeutung der Wahl der Nullhypothese weitgehend unbeachtet geblieben ist. Wenn die Nullhypothese durch die Theorie vorhergesagt wird, wird ein genaueres Experiment ein strengerer Test der zugrunde liegenden Theorie sein. Wenn die Nullhypothese standardmäßig "kein Unterschied" oder "kein Effekt" lautet, ist ein genaueres Experiment ein weniger strenger Test der Theorie, die die Durchführung des Experiments motiviert hat. [45] Eine Untersuchung der Ursprünge der letztgenannten Praxis kann daher sinnvoll sein:

1778: Pierre Laplace vergleicht die Geburtenraten von Jungen und Mädchen in mehreren europäischen Städten. Er stellt fest: "Es ist natürlich zu folgern, dass diese Möglichkeiten fast im gleichen Verhältnis stehen". Daher die Nullhypothese von Laplace, dass die Geburtenraten von Jungen und Mädchen gleich sein sollten, wenn "konventionelle Weisheit" gegeben ist. [22]

1900: Karl Pearson entwickelt den Chi-Quadrat-Test, um zu bestimmen, "ob eine bestimmte Form der Häufigkeitskurve die aus einer bestimmten Population gezogenen Stichproben effektiv beschreibt". Somit lautet die Nullhypothese, dass eine Population durch eine von der Theorie vorhergesagte Verteilung beschrieben wird. Als Beispiel verwendet er die Zahlen Fünf und Sechs in den Weldon-Würfelwurfdaten. [46]

1904: Karl Pearson entwickelt das Konzept der "Kontingenz", um festzustellen, ob Ergebnisse von einem bestimmten kategorialen Faktor unabhängig sind. Hier lautet die Nullhypothese standardmäßig, dass zwei Dinge nicht zusammenhängen (z. B. Narbenbildung und Sterberaten durch Pocken). [47] Die Nullhypothese wird in diesem Fall nicht mehr durch Theorie oder konventionelle Weisheit vorhergesagt, sondern ist stattdessen das Prinzip der Gleichgültigkeit, das Fisher und andere dazu veranlasste, die Verwendung von "inversen Wahrscheinlichkeiten" abzulehnen. [48]

Ein Beispiel für das Testen der Neyman-Pearson-Hypothese kann durch eine Änderung des radioaktiven Kofferbeispiels erfolgen. Handelt es sich bei dem „Koffer“ tatsächlich um einen abgeschirmten Behälter für den Transport radioaktiver Stoffe, dann könnte man durch einen Test zwischen drei Hypothesen wählen: keine radioaktive Quelle vorhanden, eine vorhanden, zwei (alle) vorhanden. Der Test kann aus Sicherheitsgründen erforderlich sein, wobei in jedem Fall Maßnahmen erforderlich sind. Das Neyman-Pearson-Lemma des Hypothesentests besagt, dass ein gutes Kriterium für die Auswahl von Hypothesen das Verhältnis ihrer Wahrscheinlichkeiten (a Likelihood Ratio) ist. Eine einfache Lösungsmethode besteht darin, die Hypothese mit der höchsten Wahrscheinlichkeit für die beobachteten Geigerzahlen auszuwählen. Das typische Ergebnis entspricht der Intuition: wenige Zählungen implizieren keine Quelle, viele Zählungen implizieren zwei Quellen und Zwischenzählungen implizieren eine Quelle. Beachten Sie auch, dass es normalerweise Probleme gibt, ein Negativ zu beweisen. Nullhypothesen sollten zumindest falsifizierbar sein.

Die Neyman-Pearson-Theorie kann sowohl A-priori-Wahrscheinlichkeiten als auch die Kosten von Handlungen berücksichtigen, die sich aus Entscheidungen ergeben. [49] Ersteres erlaubt jedem Test, die Ergebnisse früherer Tests zu berücksichtigen (im Gegensatz zu den Signifikanztests von Fisher). Letzteres erlaubt die Berücksichtigung von wirtschaftlichen Aspekten (zB) sowie von Wahrscheinlichkeiten. Ein Likelihood-Quotient bleibt ein gutes Kriterium für die Auswahl unter Hypothesen.

Die beiden Formen des Hypothesentests basieren auf unterschiedlichen Problemformulierungen. Der ursprüngliche Test ist analog zu einer Wahr/Falsch-Frage, der Neyman-Pearson-Test ist eher Multiple-Choice. Nach Ansicht von Tukey [50] führt erstere eine Schlussfolgerung nur auf der Grundlage starker Evidenz, während letztere eine Entscheidung auf der Grundlage verfügbarer Evidenz trifft. Während die beiden Tests sowohl mathematisch als auch philosophisch recht unterschiedlich erscheinen, führen spätere Entwicklungen zu der gegenteiligen Behauptung. Betrachten Sie viele winzige radioaktive Quellen. Die Hypothesen werden 0,1,2,3. Körner aus radioaktivem Sand. Es gibt kaum einen Unterschied zwischen keiner oder einer gewissen Strahlung (Fisher) und 0 Körnern radioaktiven Sandes gegenüber allen Alternativen (Neyman-Pearson). Die große Neyman-Pearson-Veröffentlichung von 1933 [34] berücksichtigte auch zusammengesetzte Hypothesen (solche, deren Verteilung einen unbekannten Parameter enthält). Ein Beispiel bewies die Optimalität des (Studenten-) T-test, "es kann keinen besseren Test für die betrachtete Hypothese geben" (S. 321). Die Neyman-Pearson-Theorie hat die Optimalität der Fisherschen Methoden von Anfang an bewiesen.

Der Signifikanztest von Fisher hat sich als beliebtes flexibles statistisches Werkzeug in der Anwendung mit geringem mathematischen Wachstumspotenzial erwiesen. Das Testen von Neyman-Pearson-Hypothesen wird als eine Säule der mathematischen Statistik beansprucht, [51] die ein neues Paradigma für dieses Gebiet schafft. Es regte auch neue Anwendungen in der statistischen Prozesskontrolle, der Erkennungstheorie, der Entscheidungstheorie und der Spieltheorie an. Beide Formulierungen waren erfolgreich, aber die Erfolge waren unterschiedlicher Art.

Der Streit um Formulierungen ist ungelöst. Die Wissenschaft verwendet hauptsächlich Fishers (leicht abgewandelte) Formulierung, wie sie in der einführenden Statistik gelehrt wird. Statistiker studieren die Neyman-Pearson-Theorie in der Graduiertenschule. Mathematiker sind stolz darauf, die Formulierungen zu vereinen. Philosophen betrachten sie getrennt. Gelehrte Meinungen halten die Formulierungen für unterschiedlich kompetitiv (Fisher vs Neyman), inkompatibel [32] oder komplementär. [36] Der Streit ist komplexer geworden, seit die Bayessche Inferenz respektabler geworden ist.

Die Terminologie ist uneinheitlich. Hypothesentests können jede Mischung aus zwei Formulierungen bedeuten, die sich beide mit der Zeit verändert haben. Jede Diskussion über Signifikanztests vs. Hypothesentests ist doppelt anfällig für Verwirrung.

Fisher war der Meinung, dass Hypothesentests eine nützliche Strategie für die Durchführung industrieller Qualitätskontrollen seien, er widersprach jedoch strikt, dass Hypothesentests für Wissenschaftler nützlich sein könnten. [33] Hypothesentests bieten ein Mittel zum Auffinden von Teststatistiken, die bei Signifikanztests verwendet werden. [36] Das Konzept der Trennschärfe ist nützlich, um die Konsequenzen der Anpassung des Signifikanzniveaus zu erklären, und wird häufig bei der Bestimmung des Stichprobenumfangs verwendet. Die beiden Methoden bleiben philosophisch verschieden. [38] Sie normalerweise (aber nicht immer) ergeben dieselbe mathematische Antwort. Die bevorzugte Antwort ist kontextabhängig. [36] Während die bestehende Fusion der Fisher- und Neyman-Pearson-Theorien heftig kritisiert wurde, wurde erwogen, die Fusion zu modifizieren, um Bayes'sche Ziele zu erreichen. [52]

Kritik am statistischen Hypothesentesten füllt Bände. [53] [54] [55] [56] [57] [58] Ein Großteil der Kritik lässt sich in folgenden Punkten zusammenfassen:

  • Die Interpretation von a P-Wert ist abhängig von der Stoppregel und der Definition des Mehrfachvergleichs. Ersteres ändert sich im Laufe des Studiums oft und letzteres ist unvermeidlich mehrdeutig. (d. h. "p-Werte hängen sowohl von den beobachteten (Daten) als auch von den anderen möglichen (Daten) ab, die möglicherweise beobachtet wurden, aber nicht wurden"). [59]
  • Verwirrung, die (teilweise) aus der Kombination der konzeptionell unterschiedlichen Methoden von Fisher und Neyman-Pearson resultiert. [50]
  • Betonung der statistischen Signifikanz unter Ausschluss von Schätzungen und Bestätigung durch wiederholte Experimente. [60]
  • Strikte Forderung nach statistischer Signifikanz als Kriterium für die Veröffentlichung, was zu einem Publikationsbias führt. [61] Die meiste Kritik ist indirekt. Statt falsch zu liegen, werden statistische Hypothesentests missverstanden, überstrapaziert und missbraucht.
  • Wenn es verwendet wird, um zu erkennen, ob ein Unterschied zwischen Gruppen besteht, entsteht ein Paradox. Durch Verbesserungen am experimentellen Design (z. B. erhöhte Messgenauigkeit und Stichprobengröße) wird der Test nachsichtiger. Wenn man nicht die absurde Annahme akzeptiert, dass sich alle Rauschquellen in den Daten vollständig aufheben, nähert sich die Chance, statistische Signifikanz in beide Richtungen zu finden, 100%. [62] Diese absurde Annahme, dass die mittlere Differenz zwischen zwei Gruppen nicht null sein kann, impliziert jedoch, dass die Daten nicht unabhängig und identisch verteilt (i.i.d.) sein können, da die erwartete Differenz zwischen zwei beliebigen Untergruppen von i.i.d. Zufallsvariablen ist null, daher ist die i.i.d. Annahme ist auch absurd.
  • Schichten philosophischer Bedenken. Die Wahrscheinlichkeit statistischer Signifikanz ist eine Funktion von Entscheidungen, die von Experimentatoren/Analytikern getroffen werden. [10] Wenn die Entscheidungen auf Konventionen beruhen, werden sie als willkürlich oder sinnlos bezeichnet. Um Fehler vom Typ II zu minimieren, werden große Stichproben empfohlen. In der Psychologie wird behauptet, dass praktisch alle Nullhypothesen für ausreichend große Stichproben falsch sind, also ". Es ist normalerweise unsinnig, ein Experiment mit der Sohle, einzig, alleinig Ziel, die Nullhypothese abzulehnen." [63] "Statistisch signifikante Befunde sind oft irreführend" in der Psychologie. [64] Statistische Signifikanz impliziert keine praktische Signifikanz und Korrelation impliziert keine Kausalität. Die Nullhypothese in Zweifel zu ziehen ist daher noch lange nicht die Forschungshypothese direkt unterstützt.
  • "[I]t sagt uns nicht, was wir wissen wollen". [65] Listen mit Dutzenden von Beschwerden sind verfügbar. [57][66][67]

Kritiker und Befürworter sind sich in Bezug auf die Merkmale des Nullhypothesen-Signifikanztests (NHST) weitgehend einig: Er kann zwar kritische Informationen liefern, ist aber als alleiniges Werkzeug für statistische Analysen ungeeignet. Die erfolgreiche Ablehnung der Nullhypothese bietet möglicherweise keine Unterstützung für die Forschungshypothese. Die anhaltende Kontroverse betrifft die Auswahl der besten statistischen Verfahren für die nahe Zukunft angesichts der bestehenden Verfahren. Ein angemessenes Forschungsdesign kann dieses Problem jedoch minimieren. Kritiker würden es vorziehen, NHST vollständig zu verbieten und eine vollständige Abkehr von diesen Praktiken zu erzwingen, während Befürworter eine weniger absolute Änderung vorschlagen. [ Zitat benötigt ]

Kontroversen über Signifikanztests und insbesondere ihre Auswirkungen auf den Publikationsbias haben zu mehreren Ergebnissen geführt. Die American Psychological Association hat ihre Anforderungen an die statistische Berichterstattung nach der Überprüfung verstärkt, [68] Verlage medizinischer Zeitschriften haben die Verpflichtung anerkannt, einige statistisch nicht signifikante Ergebnisse zu veröffentlichen, um Publikationsbias zu bekämpfen [69] und eine Zeitschrift (Zeitschrift für Artikel zur Unterstützung der Null-Hypothese) wurde erstellt, um ausschließlich solche Ergebnisse zu veröffentlichen. [70] Lehrbücher haben einige Vorsichtsmaßnahmen hinzugefügt [71] und eine größere Abdeckung der Werkzeuge, die erforderlich sind, um die Größe der Stichprobe zu schätzen, die erforderlich ist, um signifikante Ergebnisse zu erzielen. Große Organisationen haben die Verwendung von Signifikanztests nicht aufgegeben, obwohl einige dies diskutiert haben. [68]

Eine vereinende Position der Kritiker ist, dass Statistik nicht zu einer Annahme-Ablehnungs-Schlussfolgerung oder -Entscheidung führen sollte, sondern zu einem geschätzten Wert mit einer Intervallschätzung. Diese Datenanalyse-Philosophie wird allgemein als Schätzungsstatistik bezeichnet. Schätzungsstatistiken können entweder mit frequentistischen [1] oder Bayesschen Methoden durchgeführt werden. [72]

Ein starker Kritiker von Signifikanztests schlug eine Liste von Berichtsalternativen vor: [73] Effektstärken für die Wichtigkeit, Vorhersageintervalle für die Konfidenz, Replikationen und Erweiterungen für die Replizierbarkeit, Metaanalysen für die Allgemeingültigkeit. Keine dieser vorgeschlagenen Alternativen führt zu einer Schlussfolgerung/Entscheidung. Lehmann sagte, dass die Theorie des Hypothesentests in Form von Schlussfolgerungen/Entscheidungen, Wahrscheinlichkeiten oder Konfidenzintervallen dargestellt werden kann. "Der Unterschied zwischen den Ansätzen besteht hauptsächlich in der Berichterstattung und der Interpretation." [74]

Über eine „Alternative“ gibt es keine Meinungsverschiedenheit: Fisher selbst sagte: [25] „In Bezug auf die Signifikanzprüfung können wir sagen, dass ein Phänomen experimentell nachweisbar ist, wenn wir wissen, wie man ein Experiment durchführt, das uns selten versagt ein statistisch signifikantes Ergebnis." Cohen, ein einflussreicher Kritiker der Signifikanzprüfung, stimmte zu, [65] ". Suchen Sie nicht nach einer magischen Alternative zu NHST [Nullhypothesen-Signifikanztest] . Es existiert nicht." ". Angesichts der Probleme der statistischen Induktion müssen wir uns schließlich, wie auch die älteren Wissenschaften, auf die Replikation verlassen.“ Die „Alternative“ zum Signifikanztesten ist das wiederholte Testen. Der einfachste Weg, die statistische Unsicherheit zu verringern, besteht darin, mehr Daten zu erhalten, sei es durch eine größere Stichprobe Größe oder durch wiederholte Tests. Nickerson behauptete, nie die Veröffentlichung eines buchstäblich replizierten Experiments in der Psychologie gesehen zu haben.66 Ein indirekter Ansatz zur Replikation ist die Metaanalyse.

Bayes'sche Inferenz ist eine vorgeschlagene Alternative zum Signifikanztest. (Nickerson zitierte 10 Quellen, die dies nahelegen, darunter Rozeboom (1960)). [66] Beispielsweise kann die Bayessche Parameterschätzung reichhaltige Informationen über die Daten liefern, aus denen Forscher Rückschlüsse ziehen können, während unsichere Prioren verwendet werden, die nur minimalen Einfluss auf die Ergebnisse haben, wenn genügend Daten verfügbar sind. Der Psychologe John K. Kruschke hat die Bayessche Schätzung als Alternative für die T-Prüfung. [75] Alternativ können zwei konkurrierende Modelle/Hypothesen mit Bayes-Faktoren verglichen werden. [76] Bayes'sche Methoden könnten dafür kritisiert werden, dass sie Informationen benötigen, die in den Fällen, in denen Signifikanztests am häufigsten verwendet werden, selten verfügbar sind. In den Sozialwissenschaften liegen häufig weder die A-priori-Wahrscheinlichkeiten noch die Wahrscheinlichkeitsverteilung der Teststatistik unter der Alternativhypothese vor. [66]

Befürworter eines Bayes-Ansatzes behaupten manchmal, dass das Ziel eines Forschers meistens darin besteht, die Wahrscheinlichkeit, dass eine Hypothese wahr ist, basierend auf den von ihnen gesammelten Daten objektiv zu bewerten. [77] [78] Weder Fishers Signifikanztests noch Neyman-Pearson-Hypothesentests können diese Informationen liefern und erheben keinen Anspruch darauf. Die Wahrscheinlichkeit, dass eine Hypothese wahr ist, kann nur aus der Verwendung des Bayes-Theorems abgeleitet werden, das sowohl für das Fisher- als auch für das Neyman-Pearson-Lager aufgrund der expliziten Verwendung von Subjektivität in Form der vorherigen Wahrscheinlichkeit unbefriedigend war. [34] [79] Fishers Strategie besteht darin, dies mit der P-Wert (ein Ziel) Index allein aufgrund der Daten) gefolgt von induktive Inferenz, während Neyman-Pearson ihren Ansatz von induktives Verhalten.

Hypothesenprüfung und Philosophie schneiden sich. Bei der Inferenzstatistik, die das Testen von Hypothesen einschließt, wird die Wahrscheinlichkeit angewendet. Sowohl Wahrscheinlichkeit als auch ihre Anwendung sind mit der Philosophie verflochten. Der Philosoph David Hume schrieb: "Alles Wissen entartet zur Wahrscheinlichkeit." Konkurrierende praktische Definitionen von Wahrscheinlichkeit spiegeln philosophische Unterschiede wider. Die häufigste Anwendung von Hypothesentests ist die wissenschaftliche Interpretation experimenteller Daten, die natürlich von der Wissenschaftsphilosophie untersucht wird.

Fisher und Neyman wandten sich gegen die Subjektivität der Wahrscheinlichkeit. Ihre Ansichten trugen zu den objektiven Definitionen bei. Der Kern ihrer historischen Meinungsverschiedenheit war philosophisch.

Viele der philosophischen Kritikpunkte an Hypothesentests werden von Statistikern in anderen Zusammenhängen diskutiert, insbesondere impliziert Korrelation nicht Kausalität und das Design von Experimenten. Das Testen von Hypothesen ist für Philosophen von anhaltendem Interesse. [38] [80]

Statistik wird zunehmend in Schulen gelehrt, wobei das Testen von Hypothesen eines der Unterrichtselemente ist.[81] [82] Viele Schlussfolgerungen in der populären Presse (politische Meinungsumfragen bis hin zu medizinischen Studien) basieren auf Statistiken. Einige Autoren haben erklärt, dass statistische Analysen dieser Art ein klares Nachdenken über Probleme im Zusammenhang mit Massendaten sowie die effektive Berichterstattung über Trends und Schlussfolgerungen aus diesen Daten ermöglichen, aber Vorsicht, dass Autoren für eine breite Öffentlichkeit ein solides Verständnis des Gebiets haben sollten um die Begriffe und Konzepte richtig zu verwenden. [83] [84] [ Zitat benötigt ] [83] [84] [ Zitat benötigt ] Ein Einführungskurs in Statistik am College legt großen Wert auf das Testen von Hypothesen – vielleicht die Hälfte des Kurses. Zu Bereichen wie Literatur und Göttlichkeit gehören heute Erkenntnisse, die auf statistischen Analysen basieren (siehe Bible Analyzer). Ein einführender Statistikkurs lehrt das Testen von Hypothesen als Kochbuchprozess. Hypothesentests werden auch auf postgradualer Ebene gelehrt. Statistiker lernen, wie man gute statistische Testverfahren erstellt (wie z, Studenten T, F und Chi-Quadrat). Das Testen statistischer Hypothesen gilt als ein ausgereifter Bereich innerhalb der Statistik [74], aber die Entwicklung wird in begrenztem Umfang fortgesetzt.

Eine wissenschaftliche Studie stellt fest, dass die Kochbuchmethode der Einführung in die Statistik keine Zeit für Geschichte, Philosophie oder Kontroversen lässt. Hypothesentests wurden als einheitliche Methode gelehrt. Umfragen zeigten, dass die Absolventen der Klasse mit philosophischen Missverständnissen (in allen Aspekten der statistischen Inferenz) gefüllt waren, die sich bei den Dozenten fortsetzten. [85] Obwohl das Problem vor mehr als einem Jahrzehnt angegangen wurde, [86] und die Forderungen nach einer Bildungsreform fortbestehen, [87] absolvieren Studenten immer noch Statistikkurse mit grundlegenden Missverständnissen über das Testen von Hypothesen. [88] Ideen zur Verbesserung des Unterrichts zum Testen von Hypothesen umfassen die Ermutigung der Schüler, in veröffentlichten Arbeiten nach statistischen Fehlern zu suchen, die Geschichte der Statistik zu lehren und die Kontroverse in einem im Allgemeinen trockenen Thema hervorzuheben. [89]


Beispiele für Hypothesentests

Es gibt viele Arten von statistischen Hypothesentests.

In diesem Abschnitt werden einige gängige Beispiele für statistische Hypothesentests und die Arten von Problemen aufgeführt, mit denen sie angegangen werden:

Tests für variable Verteilungstypen (Gaussian)

Variablenbeziehungstests (Korrelation)

  • Korrelationskoeffizient nach Pearson
  • Rangkorrelation von Spearman
  • Kendalls Rangkorrelation
  • Chi-Quadrat-Test

Vergleich der Stichprobenmittelwerte (parametrisch)

  • T-Test für Schüler Student
  • t-Test für gepaarte Schüler
  • Varianzanalyse (ANOVA)
  • ANOVA-Test mit wiederholten Messungen

Vergleich der Stichprobenmittelwerte (nicht parametrisch)

  • Mann-Whitney U-Test
  • Wilcoxon Signed-Rank-Test
  • Kruskal-Wallis H-Test
  • Friedman-Test

Zum Beispiel Python-Code zur Verwendung dieser Tests finden Sie im nächsten Abschnitt.


Der Hypothesentestprozess

Der Hypothesentestprozess kann in fünf Schritte unterteilt werden:

  1. Formulieren Sie die Forschungsfrage als Forschungshypothese und als Nullhypothese über die Populationen.
  2. Bestimmen Sie die Eigenschaften der Vergleichsverteilung.
  3. Bestimmen Sie den Cut-off-Stichprobenwert der Vergleichsverteilung, bei dem die Nullhypothese abgelehnt werden sollte.
  4. Bestimmen Sie die Punktzahl Ihrer Stichprobe anhand der Vergleichsverteilung.
  5. Entscheiden Sie, ob die Nullhypothese abgelehnt werden soll.

Diese Beispiel veranschaulicht, wie diese fünf Schritte angewendet werden können, um eine Hypothese zu formulieren:

  • Nehmen wir an, Sie führen ein Experiment durch, um zu untersuchen, ob sich die Fähigkeit der Schüler, Wörter auswendig zu lernen, verbessert, nachdem sie Koffein konsumiert haben.
  • Das Experiment umfasst zwei Schülergruppen: Die erste Gruppe konsumiert Koffein, die zweite Gruppe trinkt Wasser.
  • Beide Gruppen absolvieren einen Gedächtnistest.
  • Eine zufällig ausgewählte Person in der experimentellen Bedingung (d. h. die Gruppe, die Koffein konsumiert) hat beim Gedächtnistest eine Punktzahl von 27. Die Punktzahlen der Personen im Allgemeinen bei diesem Gedächtnismaß sind mit einem Mittelwert von 19 und einer Standardabweichung von 4 normalverteilt.
  • Der Forscher prognostiziert einen Effekt (Unterschiede im Gedächtnis für diese Gruppen), sagt jedoch keine bestimmte Richtung des Effekts voraus (d. h. welche Gruppe wird beim Gedächtnistest höhere Punktzahlen haben). Was sollten Sie anhand des Signifikanzniveaus von 5% schlussfolgern?

Schritt 1: Es gibt zwei interessante Populationen.

Bevölkerung 1: Personen, die das experimentelle Verfahren durchlaufen (Kaffee trinken).

Bevölkerung 2: Personen, die das experimentelle Verfahren nicht durchlaufen (Wasser trinken).

  • Forschungshypothese: Population 1 schneidet anders ab als Population 2.
  • Nullhypothese: Es wird keinen Unterschied zwischen den beiden Populationen geben.

Schritt 2: Wir wissen, dass die Merkmale der Vergleichsverteilung (Schülerpopulation) sind:

Population M = 19, Population SD= 4, normalverteilt. Dies sind der Mittelwert und die Standardabweichung der Verteilung der Ergebnisse beim Gedächtnistest für die allgemeine Schülerpopulation.

Schritt 3: Für einen zweiseitigen Test (die Richtung des Effekts ist nicht angegeben) auf dem 5%-Niveau (25 % an jedem Schwanz) sind die Cut-off-Stichprobenwerte +1,96 und -1,99.

Schritt 4: Ihre Stichprobenpunktzahl von 27 muss in einen Z-Wert umgewandelt werden. Um Z = (27-19)/4= 2 zu berechnen (Überprüf den Umwandeln in den Abschnitt Z-Scores wenn Sie überprüfen müssen, wie dieser Vorgang durchgeführt wird)

Schritt 5: Ein &lsquoZ&rsquo-Wert von 2 ist extremer als der Cut-off Z von +1,96 (siehe Abbildung oben). Das Ergebnis ist signifikant und somit wird die Nullhypothese verworfen.

Weitere Beispiele finden Sie hier:


5. Unterschiedliche Software – unterschiedliche Ergebnisse

Es gibt eine hitzige Debatte darüber, welche Art von Quadratsummen verwendet werden sollen.

R gibt Typ I, Python gibt Typ II, SAS gibt Typ III.

Typ I und Typ II sind beliebter in der R-Software Gemeinschaft. In Rs anova() und aov() Funktionen ist der implementierte Typ von Quadratsummen Typ I, die sequentielle Berechnung. Für andere Arten von Quadratsummen verwenden Sie die Anova() Funktion von der Wagen Paket, das dauert Art Streit.

Im SAS-Software-Community, Typ III Quadratsummen werden häufiger verwendet, da dies oft die Standardimplementierung von SAS ist.

Im Python statsmodels-Bibliothek ist die Standardimplementierung Typ II, aber die Art Argument macht die Verwendung von Typ I oder Typ II sehr einfach.


Überwachte Klassifizierung von Bildern, angewendet auf Planktonproben mit R und Zooimage Zoo

Grosjean Philippe , Denis Kevin , in Data Mining-Anwendungen mit R , 2014

12.8 Lektionen, Diskussion und Schlussfolgerungen

In diesem Kapitel wird die automatische Klassifizierung von Daten vorgestellt, die aus Bildern stammen. Als konkretes Beispiel haben wir Bilder von Planktonproben verwendet, aber ein ähnlicher Ansatz kann auf jede Art von Bilddaten angewendet werden. Die Verwendung von R zur automatischen Klassifizierung von Plankton bietet der ozeanographischen Gemeinschaft die Möglichkeit, Probenanalysen zu beschleunigen. Das zooimage und Ich lerne Pakete nutzen dieses Potenzial, indem sie eine Reihe spezialisierter Funktionen zusätzlich zu der bereits großen Palette von R-Funktionen bereitstellen, die für das Data Mining verfügbar sind. Insbesondere integriert es den Prozess in einen breiteren Workflow, einschließlich Bildakquisition/-analyse (hier nicht vorgestellt, aber siehe das Zoo/PhytoImage-Handbuch ( Grosjean und Denis, 2007 )), Metadatenverarbeitung, Ausarbeitung von Trainings- und Testsets und final Verarbeitung der Daten zu stichprobenbasierten Statistiken. Dank an zooimage, R wurde schnell und weitgehend von einer Gemeinschaft von Planktonbiologen und Ozeanographen angenommen, die es zuvor nicht unbedingt verwendet haben, wie die zahlreichen bereits veröffentlichten Arbeiten zeigen. Es könnte auch für andere Anwendungen verwendet oder angepasst werden (z. B. wurde es auch zum Zählen von Bakterien verwendet (Gillan et al., 2012)).

In diesem Kapitel haben wir zwei maschinelle Lernalgorithmen auf einen Beispieldatensatz angewendet: Random Forest und Support Vector Machine mit linearer Kernelfunktion. Sie gehören zu den effizientesten Algorithmen zur Klassifizierung von Planktonbildern. Beide erreichen mit 25 Gruppen eine Fehlerquote von knapp 20 %, d. h. eine Genauigkeit von 80 %. Die Optimierung der erhaltenen Klassifikatoren war nicht Gegenstand des Kapitels, ist aber natürlich möglich (siehe Hilfeseiten der entsprechenden R-Funktionen). Die Auswahl von Diskriminanzvariablen ist auch mit Algorithmen wie Random Forest möglich (und dies wurde anhand des Kriteriums der Abnahme des Gini-Index veranschaulicht, siehe ( Torgo, 2010 )). Die Klassifiziererleistungen hängen stark von der Bildqualität, der Bildanalyse, den ausgewählten Merkmalen, der Anzahl der zu unterscheidenden Klassen und den Parametern der Algorithmen ab, die für die automatische Klassifizierung von Bildern verwendet werden. Um den Workflow bei der Verwendung anzuzeigen zooimage, werden die mit den beiden getesteten Algorithmen erzielten Leistungen mit anderen Studien zur Planktonklassifizierung verglichen. Mikroskopische Bilder von 23 Dinoflagellaten-Spezies (einzelliges Phytoplankton) wurden mit einer Genauigkeit von 83% unter Verwendung eines neuronalen Netzwerkalgorithmus klassifiziert (Culverhouse et al., 1996). In diesem Fall galt der Klassifikator als ebenso gut wie ausgebildete Taxonomen. Die Echtzeitklassifizierung von fünf bis sieben Hauptplanktonklassen mit einer Genauigkeit von 84 % bzw. 69 % unter Verwendung des gleichen Lernvektorquantisierungsalgorithmus ermöglicht es dem VPR, Verteilungskarten von Plankton auf See bereitzustellen (Davis et al., 2004). Bei VPR-Bildern wurden auch andere Algorithmen verwendet, darunter Support-Vektor-Maschinen, die für sieben Klassen eine Genauigkeit von 72 % erreichten (Hu und Davis, 2005). Mit einem dualen Klassifikator, der ein neuronales Netz und eine Support-Vektor-Maschine kombiniert, wurden für dieselben sieben Klassen mehr als 90% der Genauigkeit erreicht (Hu und Davis, 2006). Der SIPPER ist ein experimentelles Gerät, das Bilder mit niedrigerer Auflösung als das VPR bietet, aber die automatische Klassifizierung mit Support Vector Machine erreichte immer noch eine Genauigkeit von 76 % für sechs Klassen (Luo et al., 2003). Derselbe Algorithmus konnte für fünf Gruppen mit SIPPER II-Bildern eine Genauigkeit von 88 % erreichen (Luo et al., 2005). Der Imaging FlowCytoBot ( Olson und Sosik, 2007 ) ist ein Prototyp, der mit der FlowCAM verglichen werden kann, einem bereits kommerzialisierten Gerät ( http://www.fluidimaging.com/ ). Ein Support-Vektor-Maschinen-Klassifikator ermöglicht die Unterscheidung von 22 Gruppen von Phytoplankton, die mit Imaging FlowCytoBot ( Olson und Sosik, 2007 ) mit einer Genauigkeit von 88% ( Sosik und Olson, 2007 ) digitalisiert wurden. Der ZOOSCAN wurde verwendet, um 29 Zooplanktonklassen mit einer Genauigkeit von 83% unter Verwendung einer Kombination von Algorithmen zu unterscheiden (Grosjean et al., 2004). In einer anderen Studie ermöglichten Bilder aus dem ZOOSCAN die Klassifizierung von Partikeln in 20 Zooplankton-Gruppen mit einer Genauigkeit von 79% unter Verwendung des Random-Forest-Algorithmus (Gorsky et al., 2010). Zoo/PhytoImage in Verbindung mit einem hochauflösenden Flachbettscanner bilden ein System, das dem ZOOSCAN ziemlich ähnlich ist ( Bachiller und Fernandes, 2011 Bell und Hopcroft, 2008 Gislason und Silva, 2009 ). Mit dieser Kombination wurden 63 und 53 Gruppen von Mesozooplankton aus Alaska unter Verwendung eines Random-Forest-Algorithmus mit einer Genauigkeit von 85% bzw. 88% klassifiziert (Bell und Hopcroft, 2008). In Island wurden 34 und 25 Planktongruppen mit einem ähnlichen System, immer noch mit Random Forest, mit einer Genauigkeit von 75% bzw. 82% klassifiziert (Gislason und Silva, 2009). Plankton wird manchmal vor der Digitalisierung gefärbt, um lebende planktonische Organismen besser von toten oder mineralischen Partikeln zu unterscheiden (Bachiller und Fernandes, 2011 Fernandes et al., 2009 Irigoien et al., 2009). Auf diese Weise wurden 17 Planktongruppen mit einer Genauigkeit von 88 % unter Verwendung von Random Forest klassifiziert ( Irigoien et al., 2009 ) und 24 Gruppen wurden mit einer Genauigkeit von 86 % unter Verwendung eines naiven Bayes-Algorithmus ( Fernandes et al., 2009 ) diskriminiert. Mit einer FlowCAM digitalisiertes und mit Zoo/PhytoImage analysiertes Phytoplankton aus der Nordsee wurde in Echtzeit in 25 Gruppen unter Verwendung von Random Forest mit einer Genauigkeit von 79% klassifiziert (Lancelot et al., 2012). Alle diese Leistungen ähneln denen in diesem Kapitel.

Die durch die globale Genauigkeit der kreuzvalidierten Konfusionsmatrix in all diesen Studien geschätzten Leistungen spiegeln nicht unbedingt das echte Potenzial bei der Klassifizierung von Partikeln aus getrennten Proben wider, wie wir hier gezeigt haben. Dies liegt zum Teil daran, dass (1) neue Stichproben wahrscheinlich Partikel enthalten, die zu taxonomischen Gruppen gehören, die beim Erstellen des Trainingssatzes ignoriert oder unbekannt waren, (2) die Form der Partikel innerhalb jeder Klasse sich als Funktion der Umgebungsbedingungen leicht ändern kann , und (3) wir haben typischerweise 5-15% der Partikel, die der Taxonom nicht identifizieren kann, und dies erhöht die Gesamtfehlklassifizierungsrate. Mit Ich lernekönnen A-priori-Wahrscheinlichkeiten an zwei Stellen geändert werden: beim Trainieren des Klassifikators 11 und in der Konfusionsmatrix, um zu testen, wie die Zusammensetzung einer Teststichprobe die Leistungen eines bereits existierenden Klassifikators beeinflussen würde. Im Zusammenhang mit der Analyse von Planktonproben ist der zweite Fall am wahrscheinlichsten von Interesse, und wir haben gezeigt, wie dies geht Ich lerne und zooimage.

Bei Planktonstudien und allgemeiner in der Ökologie interessieren sich Wissenschaftler mehr für allgemeine Statistiken wie Abundanz und Biomasse oder Größenspektrum nach taxonomischen oder ökologisch funktionellen Gruppen als an der Identifizierung jedes einzelnen Planktonorganismus in den Proben. Diese Sichtweise weicht stark von üblichen maschinellen Lernansätzen ab, bei denen Methoden darauf ausgerichtet sind, alle Fälle zu finden oder zu extrahieren, die einem bestimmten Kriterium entsprechen (z. B. Betrugserkennung, Krankheitsdiagnose) (Torgo, 2010). Dort werden häufig binäre Klassifikatoren verwendet. Mehrere R-Pakete, wie ROCR (Sing et al., 2009) oder ProC (Robin et al., 2011), schlagen Werkzeuge vor, um solche binären Klassifikatoren zu analysieren. Die Planktonklassifikation ist typischerweise ein Mehrklassenproblem, bei dem eine große Anzahl von Klassen gleichzeitig unterschieden werden muss. Für einen solchen Zweck sind Diagnosewerkzeuge wie ROC-Kurven nicht geeignet, da sie alle möglichen Eins-zu-Eins- oder Eins-zu-all-Kurven berechnen (Hand und Till, 2001). Die daraus resultierende Komplexität ist schwer zu handhaben und zu interpretieren. Unseres Wissens ist in R nur eine Mehrklassen-ROC-Kurvenstatistik verfügbar zooimage und Ich lerne Paketen wird die Konfusionsmatrix als zentrales Werkzeug zur Analyse der Klassifikatorleistung beworben. Trotz ihrer offensichtlichen Einfachheit und ihrer identifizierten Mängel (sie hängt von Prioritäten, Kosten und Schwellenwerten ab) ist diese doppelte Kontingenztabelle im Fall von Mehrklassenproblemen praktisch und ermöglicht es uns, schnell zu erkennen, wo die höchste Fehlerquote liegt oder um Extrahieren Sie mehrere Statistiken für jede Klasse oder für den gesamten Klassifikator (Erinnerung, Präzision, F-Score usw.). zusätzlich zooimage Paket bietet verschiedene grafische Darstellungen, die die Analyse der Klassifikatorleistung erleichtern oder zwei Klassifikatoren vergleichen. Eine statistische Korrektur des Fehlers kann unter Verwendung der in der Konfusionsmatrix enthaltenen Informationen angewendet werden, um die Abundanz oder Biomasse nach Klassen besser abzuschätzen (Hu und Davis, 2006, Solow et al., 2001). Dies erfordert sicherlich weitere Untersuchungen.

Ein weiteres Forschungsgebiet ist die optimale Definition der Planktonklassen, die in das Trainingsset aufgenommen werden sollen. Es ist noch nicht klar, auf welcher taxonomischen Ebene die Analyse von Planktongemeinschaften angesichts des Stichprobenaufwands und der Knappheit verfügbarer Daten am effizientesten ist. Mit anderen Worten, die Klassen selbst sind nicht vollständig festgelegt. Die hierarchische Darstellung der Klassen in zooimage bietet die Möglichkeit, Planktonproben auf verschiedenen taxonomischen Ebenen ganz einfach zu untersuchen. Die Vereinfachung von Trainingssätzen durch das Zusammenfassen einiger der anfänglichen Klassen hat sich als praktikabler Ansatz bei der Suche nach dem besten Kompromiss zwischen einer höheren taxonomischen Trennung und einer Minimierung der Fehlerrate erwiesen. Fernandeset al. (Fernandes et al., 2009) haben einen iterativen Optimierungsalgorithmus vorgeschlagen, um einen solchen Kompromiss zu erzielen. Weitere Recherchen anhand der hierarchischen Organisation der Klassen in zooimage, wäre sicherlich für zukünftige Verbesserungen nützlich.


Schau das Video: Chyby ve hrách (Januar 2022).