Wiederholmessungen paarweise verglichen / t-Test2012-12-20T14:20:28+01:00

QM-Forum Foren Qualitätsmanagement Wiederholmessungen paarweise verglichen / t-Test

Ansicht von 3 Beiträgen – 1 bis 3 (von insgesamt 3)
  • Autor
    Beiträge
  • QMB123
    Mitglied
    Beitragsanzahl: 12

    Hallo.

    Ich habe eine Frage bzgl. der Auswertung versch. t-Tests.
    Ich habe Oberflächenmessungen an 10 Werkstücken vorgenommen. An jedem Werkstück habe ich 3 Stellen ausgewählt und dort jeweils viermal gemessen.
    Nun habe ich die Messungen als paarweisen Vergleich (t-Test) untersucht, d.h. ich habe Messung 1 mit Messung 2, 1 mit 3 und 1 mit 4, 2 mit 3 und 3 mit 4 verglichen, ob die Differenzen der Messungen gleich 0 sind (Nullhypothese).
    Jetzt habe ich unterschiedliche Ergebnisse erhalten. Z.B. wird im Vergleich 1-2 und 1-3 die Nullhypothese abgelehnt (Differenzen sind ungleich 0). Im Vergleich 2-3 und 2-4 wird sie beibehalten.

    Was kann man daraus schließen? Gibt es beim Messsystem einen systematischen Fehler? Wenn ich mir die Werte anschaue sinken diese tendenziell (per Sichtprobe nachgewiesen, dass sich eine Rille bildet). Ein anderer Fall ist, dass bei einem anderen Messsystem die Werte von Messung 1 zu 2 bzw. 1 zu 3 steigen (Ebenfalls einige Vergleiche mit Ablehnung und nicht Ablehnung).

    Danke für die Antwort

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo QMB123,

    hm, das mit den einzelnen t-Tests find ich ein bisschen schwierig, weil es
    a) aufwändig ist,
    b) keinen gemeinsamen Vergleich (z. B. Messstelle & Messreihenfolge gleichzeitig) ermöglicht,
    c) keine Information über die Erklär-Qualität liefert und
    d) ein hohes Risiko für einen Fehlalarm bietet.

    zu a) aufwändig:
    Um alle Messstellen-Mittelwert bei 4 Messstellen miteinander zu vergleichen, hast Du insgesamt 6 Tests:
    1-2, 1-3, 1-4, 2-3, 2-4, 3-4

    Da würd ich auch ein bisschen Schwierigkeiten haben, die logisch auszuwerten und in Bezug zueinander zu setzen.

    zu b) kein gemeinsamer Vergleich mit Tests
    Ein Test (t-Test, F-Test,…) prüft immer nur 1 Hypothese. Bei den Wiederholmessungen an mehreren Messstellen z. B. die Hypothese „Mittelwerte sind gleich“ vs. „Mittelwerte sind ungleich“.

    Mit einem Test lassen sich daher auch keine komplexeren Einflüsse untersuchen, z. B. der Einfluss der Messstelle PLUS der Einfluss durch die Messreihenfolge 1, 2, 3 und 4. Für solche „mehr als 1 Einfluss“ und für „mehr als paarweiser Vergleich / mehr als 2 Gruppen“ Situationen gibt es statistische Modelle, die alles gleichzeitig unter Berücksichtigung der anderen Werte bewerten.

    zu c) keine Angaben zur Erklär-Qualität
    Der t-Test gibt Dir aus, ob der Unterschied signifikant oder ein Zufallsfund ist. (Andere Tests prüfen andere einfache Hypothesen.) Du bekommst aber keine Aussage dazu, ob
    *der untersuchte Einfluss auch das Ergebnis gut erklärt (Erklär-Qualität, z. B. Anpassungsgüte R²)
    *es Anzeichen für weitere wichtige Einflüsse gibt (Auswertung der Residuen)
    *die Messwerte abgesehen von dem berücksichtigten Einfluss (z. B. verschiedene Messstellen) nur zufällig über die Zeit streuen oder ob es einen globalen zeitlichen Trend gibt (z. B. Streuung nimmt zu, Trends, etc.)

    zu d) hohes Fehlalarm-Risiko
    Wenn Du mit dem Standardwert Vertrauensniveau 95% bzw. alpha=5% arbeitest, hast Du bei 1 Test eine Ausbeute an guten Entscheidungen von 95%. (Wenn das beta-Risiko unberücksichtigt bleibt.)

    Bei 2 Tests ist die Ausbeute an guten Entscheidungen 95% * 95% = 95%^2 = 90%.
    Bei 3 Tests ist die Ausbeute 86%.
    Bei 4 Tests 81%.
    Bei 5 Tests 77%.
    Und bei 6 Tests 74%.

    Anders herum ausgedrückt: Machst Du 6 Tests, hast Du eine Chance von 26%, einen Fehlalarm zu bekommen. Fehlalarm beim t-Test heißt: Du nimmst an, dass es einen signifikanten Unterschied gibt, obwohl tatsächlich kein Unterschied da ist.

    Fazit:
    Die Vielfach-Tests haben ihre Tücken. Modelle sind besser.

    In einem Modell würdest Du z. B. (gleichzeitig) vergleichen
    *ob es systematische Unterschiede bei den Messstellen gibt
    *ob es signifikanten einen Trend durch die Messreihenfolge (Wert 1, Wert 2, Wert 3, Wert 4) gibt und
    *ob es einen systematischen Effekt durch die Messreihenfolge in Abhängigkeit von der Messtelle gibt (z. B. Messstelle 1: Werte steigen von 1-4, Messstelle 3: Werte fallen von 1-4)

    Das statistische Modell für diese Situation ist ein allgemeines lineares Modell (auch GLM). Um das berechnen zu können, ist eine Statistik-Software hilfreich, schon allein weil die standardmäßig auch ganz viel zu der Erklärqualität und der Rest-Streuung (Residuen) mit ausgeben kann. (Ob das in Excel geht, weiß ich nicht. Wenn dann wäre es sehr aufwändig.)

    Viele Grüße

    Barbara

    _____________________________________

    Eine gute wissenschaftliche Theorie sollte einer Bardame erklärbar sein.
    (Ernest Rutherford, Physiker)

    QM-FK
    Teilnehmer
    Beitragsanzahl: 469

    Hallo, QMB123

    Auch wenn man aus einer Reihe von vergleichbaren Messungen 2 auswählt, um festzustellen, ob die Unterschiede signifikant sind, muss man meines Wissens nach mindestens die Bonferroni-Korrektur bei paarweisem Vergleich durchführen, um nicht einem Fehlalarm aufzusitzen.

    Ein weit verbreitetes, nicht so offensichtliches Phenomen hängt damit zusammen, dem fast alle Ärzte auf den Leim gehen:
    Lasst Euch einmal von Eurem Hausarzt die Blutwerte zur Verfügung geben:
    Ihr werdet sehen, dass sich unter den 30 gemessenen Parametern durchaus mindestens 1 bis 2 falsch-positive Befunde befinden, da dort die Irrtumswahrscheinlichkeit üblicherweise auf 5% gestetzt ist.
    Hinzu kommen noch Laborfehler.
    Gottseidank gibt es Gemeinschaftskorrelationen, so dass i.d.R. die Fehlalarme nicht immer zu einer Fehlbehandlung führen …

    Viele Grüße
    QM-FK

    Don’t think it – ink it.

Ansicht von 3 Beiträgen – 1 bis 3 (von insgesamt 3)
  • Sie müssen angemeldet sein, um auf dieses Thema antworten zu können.
Nach oben