QM-Forum › Foren › Qualitätsmanagement › Regressionsanalyse
-
AutorBeiträge
-
Hallo Barbara,
vielen Dank erstmal für die wie immer ausführlichen Erläuterungen!
Ich versuche dem roten Faden zu folgen:
Der Einfluss der Temperatur auf T ist nicht linear. Aber auch der Einfluss der chem. Elemente auf die Zielgröße T ist nicht linear. Muss man sie auch linearisieren? Ich habe mir diese Box-Cox-Trafo angeguckt – da muss man ja Lambda bestimmen. Du meinst, einfach ausprobieren und das beste nehmen?! Ich habe bereits so was Ähnliches für Einflussgröße ‚chem. Elemente‘ ausprobiert, jedoch ohne Erfolg..
Damit ich das richtig verstehe: Du meinst jetzt, man sollte die Temperatur transformieren? Du meinst wahrscheinlich, dass man die Zielgröße transformieren sollte (also z.B. die Zielgröße zu logarithmieren), oder?! Dient die Transformation nicht dazu, die Normalverteilung zu erhalten? Wie fasse ich überhaupt alle T’s zusammen? Mehrere Zielgrößen darf man ja nicht haben..
Wir haben bereits einen Versuchsplan erstellt, aufgrund der zur Verfügung stehenden Informationen und Zwischenergebnisse. Wir haben extreme Fälle gewählt (aber nicht zu extreme), damit man nach den Versuchen wirklich signifikante Unterschiede feststellen kann.
Gruß, ***
geändert von – TB on 11/12/2007 16:12:01
Hallo ***,
jepp, für die Box-Cox-Transformation brauchst du ein lambda. Wie das geht, findest Du in einigen Software-Paketen wie z. B. Matlab automatisiert.
Wichtig ist, dass es zwei verschiedene Arten der Box-Cox-Transformation gibt: Ich kann entweder den Einfluss einer Einflussgröße X auf die Zielgröße Y linearisieren (für ein SPM z. B.) ODER ich kann die ein Merkmal so transformieren, dass es normalverteilt ist (was für ein SPM keine Rolle spielt).
Weitere Details zur Unterscheidung der beiden Box-Cox-Transformationen findest Du hier:
Box-Cox-Transformation
und einige Anwendungsbeispiele hier:
http://www.crgraph.de/BoxCox.pdfTransformiert wird (X: Einflussgröße, Y: Zielgröße):
X: wenn die Varianz der Residuen konstant ist (also: Residualplot Residuen vs. geschätzte Werte anschauen)
X und/oder Y: wenn die Varianz der Residuen nicht konstant ist
(letzteres ist allerdings etwas unschön und aufwändig, weshalb man immer erstmal mit X-Transformationen versucht zu linearisieren.Hier noch einige hilfreiche Links:
Ablauf linearisierende Box-Cox-Transformation
Beispiel-Ablauf
Anwendung in Matlab
Matlab und Box-CoxAlternativ gibt es z. B. in R die Funktion box.cox (Library car), mit der Du das auch nachbauen kannst. Ein Beispiel dazu findest Du in der R-Hilfe über ?box.cox.
Du fasst also die Thermospannung nicht zusammen, sondern linearisierst den Zusammenhang zwischen jeweils einer Einflussgröße und der Zielgröße und machst dann mit den linearisierten Einflussgrößen ein statistisches Modell.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)geändert von – Barbara on 12/07/2007 10:12:16
geändert von – Barbara on 01/10/2007 21:22:36
Hallo Barbara,
vielen Dank für die schnelle Antwort mit Links und Ratschlägen! (habe auch die Hilfe von Minitab zu Box-Cox durchgeblättert) Werde mich nächste Woche damit intensiv beschäftigen.
Schöne Pfingsten!
Gruß, ***
geändert von – TB on 11/12/2007 16:12:31
Hallo ***,
ich hab gerade eine freie Software zum Berechnen des optimalen lambdas für die linearisierende Box-Cox-Transformation gefunden:
http://www.wessa.net/rwasp_boxcoxlin.wasp
(realisiert in R: http://cran.r-project.org/)Die Funktion in R, mit der die lambda-Grafik aufgerufen wird, ist:
library(MASS)
boxcox(x ~ y, lambda=seq(-3,3,.01))
Diese Funktion transformiert immer die linke Seite der Gleichung. Wenn Du also y transformieren willst, muss da einfach „y~x“ hin. Der Bereich (seq=sequenz) für lambda ist frei wählbar.X-Werte transformieren:
library(car)
x.t <- box.cox(x,lambda)
speichert in x.t die transformierten Werte zum ausgewählten lambdaDir auch ein schönes Pfingstwochenende :-)
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)geändert von – Barbara on 01/10/2007 21:23:08
Hallo Barbara!
Da bin ich wieder, mit meinen Fragen zur Regressionsanalyse.. :-)
Die Regressionsanalyse muss jetzt warten, weil ich noch andere Projekte habe und wir ja ausserdem Versuchsplanung machen (habe noch keine Ergebnisse, da die geschmolzenen Proben noch beim Schmieden sind). Aber vielen Dank nochmal für Deine Hilfe!
Hab jetzt einen anderen Datensatz, zu einem anderen Thema. Die Zielgröße ist ‚Laufzeit'(Anzahl der Stiche ist nicht bekannt, dafür aber die Gesamtlaufzeit, die allerdings per Hand eingegeben wird), Einflussgrößen sind Breite und Stärke des Erzeugnisses (Flachdraht), eingesetzter Drahtdurchmesser (der aber nicht unbedingt richtig ist), produzierte Menge und Name der jeweiligen Legierung (was sehr wichtig ist, weil das Material je nach Legierung weich oder hart sein kann).
Habe den ganzen Tag damit verbracht, unplausible Daten nachzuvollziehen und korrigieren, falls man sicher ist, dass sie genau so auszusehen haben. Ich war eine artige und fleißige Schülerin und habe mir Deine Tipps zur Hilfe genommen :-) Merkmalsliste erstellt, Kennzahlen-Tabelle, verschiedene Grafiken gemacht usw. Die Daten sind überhaupt nicht normalverteilt (na, wie immer..). Habe dann versucht mit BoxCox die Zielgröße zu transformieren. Hat auch geklappt, aber die Johnson-Transformation war noch besser (welche Transformation ist eigentlich besser?). Die Einflußgrößen lassen sich aber nicht transformieren, weder mit Johnson noch mit BoxCox (oder besser gesagt liefern keine Normalverteilung). Habe mir auch andere Verteilungen angeguckt, ob die zu irgendeiner Einflußgröße passen – die Daten scheinen überhaupt nicht verteilt zu sein.. ;-) Ein Häufchen..
Habe aber lineare Zusammenhänge zwischen Breite und Durchmesser (logisch), schwachen lin. Zus.hang zw. Stärke und Durchmesser. Und einen linearen (auch schwach) Zus.hang zw. Laufzeit und Menge. Hab dann eine Regressionsgleichung mit R-Qd von 81% erhalten, deren Residuen allerdings nicht normalverteilt sind.. Kann ich was daraus schließen? Bzw. reichen 81% und keine normalverteilten Residuen für eine qualitative Aussage???
Mit Dank im Voraus.
Gruß, ***
geändert von – TB on 11/12/2007 16:18:01
Hallo ***,
das mit der Transformation in Modellen ist nur dann wichtig, wenn die Einflussgrößen (Breite, Härte, Durchmesser, usw.) nicht linear auf die Zielgröße Laufzeit wirken, d. h. wenn Du schon im Streudiagramm eine Kurve sehen kannst. Dann (und nur dann) ist eine Transformation der Einflussgröße(n) sinnvoll.
Die Zielgröße wird nur dann transformiert, wenn die Fehlervarianz (Streuung der Residuen) nicht konstant ist, sondern z. B. mit wachsender Laufzeit ansteigt (so genannte Heteroskedastizität).
Die Normalverteilung ist weder für die Einflussgrößen noch für die Zielgröße wichtig. Erst bei der Modell-Prüfung (Residualanalyse) sollte der Modell-Rest normalverteiltes Rauschen sein.
81 % ist doch schon mal ein Anfang ;-) (Mit welchem Programm rechnest Du eigentlich im Moment?)
Für das Modell würd ich neben den Einflussgrößen auch die Wechselwirkungen / Interaktionen (FI: Faktorinteraktionen) aufnehmen, damit die Modell-Güte steigt. Also in Deiner Situation:
Y: Laufzeit
X: Breite
Stärke
Durchmesser
Menge
LegierungFI: Breite*Durchmesser
Stärke*Durchmesser
(was ist mit Breite*Stärke?)Und ich würde versuchen, statt dem Namen der Legierung die Härte als Zahl einzugeben, weil damit das Modell mit deutlich mehr Informationen gefüttert wird als nur durch den Namen.
Das Modell ist dann:
Y ~ X + FIbzw. in R-Syntax:
glm.laufzeit <- glm(Laufzeit ~ Breite + Stärke + Durchmesser + Menge + Legierung + Breite*Durchmesser + Stärke*Durchmesser)
summary(glm.laufzeit)oder in Minitab-Syntax:
Antwort: Laufzeit
Modell: Breite Stärke Durchmesser Menge Legierung Breite*Durchmesser Stärke*Durchmesser
(plus Angabe der Kovariaten natürlich)Wie viele Datensätze hast Du eigentlich für das Modell?
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)geändert von – Barbara on 01/10/2007 21:23:36
AnonymGast9. August 2007 um 8:31 UhrBeitragsanzahl: 2122Liebe Barbara,
lieber TB,niemals hätte ich hier im Forum damit gerechnet, daß mir jemand mit so einfachen Beiträgen erklärt, warum ich dauernd Durst habe.
Ich werde meiner GL die Anschaffung eines weiteren Getränkeautomaten empfehlen, dessen Befüllung sich nach den von Euch vorgelegten Erkenntnissen leicht berechnen lassen dürfte.
Wie immer ein Genuß . . .
Euer
Michael
Wenn einer nicht mehr weiter weiß, dann gründet er `nen Arbeitskreis.
Hallo,
vor einiger Zeit habe ich im Rahmen der Zeitwirtschft diese Software kurz kennengelernt, mit der die Daten auch analysiert werden könnten.
http://www.ortim.de/html/Planzeiten_42_d.php
Siehe: Planzeitformel erzeugenBasis sind Datensätze in denen die Einflußgrößen der Zeitaufnahme (Länge, Breite, Höhe, Gewicht, ..) und das Ergebnis (= aufgenommenen Zeit) stehen.
In diesem Modul wird eine Planzeitformel erzeugt, die aus den vorhandenen Einflussgrößen eine Vorgabezeit erzeugt (ohne Verteilzeiten, …)
Dabei werden nicht relevante Einflußgrößen automatisch eliminiert.Bsp für eine Formel wäre dann:
Grundzeit = 4,5 * Höhe + 1,25 * e^(4,454*Breite)Im Prinzip sollte dies funktionieren.
gruß
mfunkSie koennen erst dann neue Ufer entdecken,
wenn Sie den Mut haben, die Küste aus den Augen zu verlieren.
<chinesische Weisheit>Hallo mfunk,
das Programm sieht ganz nett aus und nach einem Telefonat mit dem GF heute würd ich sagen, das macht auch das, was wir hier machen (nämlich eine Regressionsanalyse bzw. ein GLM / SPM).
Allerdings kostet ORTIMplan in etwa das 2,5fache von Minitab oder JMP (kann dafür noch einige andere Sachen, die für die Arbeitsvorbereitung sinnvoll sind). Und ORTIMplan kann ganz viele Sachen nicht, die für die statistische Prozess-Analyse und -Modellierung wichtig sind.
Schwierig finde ich auch die standardmäßig angebotenen Transformationen sowie die Berechnung von allen Kombinations-Modellen, weil ein berechnetes Ergebnis nicht unbedingt das ist, was mit dem GMV (gesunden Menschenverstand) nachvollzogen werden kann.
Also: Wenn Statistik, dann auch mit einem Statistik-Programm. Das ist günstiger und kann mehr.
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)Hallo Barbara,
für mich als Anwender mit maximal statistischem Halbwissen ist das ein anwenderfreundliches Programm mit einem einfachen Ergebnis = fertige Formel + Bestimmtheitsmaß.
Das Ergebnis muss ich immer werten (wie bei allen Modellen).Was hälst du von Knime ?
http://www.knime.org/Grüße Martin
P.S. kennst du einen G. Städler? (kam mir gerade in den Sinn)
Sie koennen erst dann neue Ufer entdecken,
wenn Sie den Mut haben, die Küste aus den Augen zu verlieren.
<chinesische Weisheit>Vielen Dank für die schnelle Antwort, Barbara!
So, jetzt werde ich versuchen alles geordneter zu beschreiben als letztes Mal..
Habe 2038 Datensätze insgesamt (nach der Bereinigung), davon 877 einer meist vertretenen Legierung (also ca. 43%), alle übrigen 28 Legierungen sind selten vertreten: max. 9% aller Daten.
Ich rechne momentan noch mit dem Minitab (hab die Demoversion diesmal auf dem Computer meines Kollegen installiert :-) – bald gehen mir die Computer aus und ich muss mich dann mit R auseinandersetzen, bisher hatte ich leider noch keine Zeit dafür).
Habe zunächst versucht, für nur diese eine Legierung Daten zu analysieren (werde nächste Woche das für alle Datensätze machen).
Zielgröße: Laufzeit
Einflussgrößen:
– Durchmesser Runddraht
– Querschnitt Runddraht
– Stärke Flachdraht
– Breite Flachdraht
– Querschnitt Flachdraht
– Produzierte Menge
– Länge Flachdraht
– Verhältnis Breite-Stärke
– Verformung in %
– UmformgradDie Legierungen nach ‚hart‘ und ‚weich‘ aufzuteilen ist viel zu ungenau, daher möchte ich noch den Härtegrad berechnen. Daher erstmal Verformung in % und Umformgrad genommen (in Abhängigkeit von den Querschnitten des Runddrahtes und des Flachdrahtes).
Im Matrixplot erkennt man lineare Zus.hänge zw.:
– Laufzeit und Menge
– Stärke und Querschnitt Flachdraht, Durchmesser Runddraht
– Breite und Querschnitt Flachdraht, Verhältnis Breite-Stärke, Durchmesser Runddraht
– Querschnitt Flachdraht und Querschnitt Runddraht
– Verhältnis Breite-Stärke und UmformgradNach Pearson gibt es Korrelationen zwischen:
– Länge und Laufzeit
– Menge und Laufzeit
– Umformgrad und Breite
– Umformgrad und StärkeDie Regression liegt bei ca. 50%.
Hab dann folgendes GLM gewählt:
Antwort: Laufzeit
Modell:
– Stärke
– Breite
– Menge
– Umformgrad
– Länge
– Länge*Umformgrad
– Länge*Stärke
– Länge*BreiteKovariaten:
– Umformgrad
– Länge
– Breite
– StärkeIch erhalte R-Qd = 82% und R-Qd(korr) = 72%, wobei p-Werte für Stärke, Umformgrad und Länge*Stärke über 5% liegen und es sehr viiieeel ungewöhnliche Beobachtungen gibt..
Könntest Du mir bitte noch ein Sückchen von Deinem Voodoo-Zauber verraten?!.. :-))
Schönes Wochenende,
***geändert von – TB on 11/12/2007 16:16:35
Hallo ***,
das mit den vielen ungewöhnlichen Beobachtungen wundert mich mal gerade gar nicht. Die Regel für ungewöhnliche Beobachtung ist „standadisiertes Residuum kleiner -2 oder größer +2“. Bei normalverteilten Residuen trifft das auf 5 % zu, d. h. bei 2038 Datensätzen sind 102 ungewöhnliche Beobachtungen zu erwarten.
Was anderes ist es, wenn in den Residuen deutliche Strukturen oder Muster erkennbar sind.
Was ich bei Deinem GLM noch nicht so ganz verstanden habe:
*In der ersten Liste der Einflussgrößen hast Du sowohl Flach- als auch Runddraht. Im GLM sind nur noch die Flachdraht-Merkmale drin. Hast Du das GLM nur für die Flachdraht-Produktion gemacht oder stehen in der Flachdraht-Spalte „Stärke“ z. B. auch der Durchmesser von Runddraht?
*Wieso hast Du die Legierungen nicht im GLM? Auch wenn sie selten sind, kannst Du sie mit aufnehmen. (Es sollten ca. 30 Durchläufe für jede Legierung vorhanden sein.) So kannst Du ja gar nicht feststellen, ob die Legierung einen Einfluss hat.
*Wo ist denn der Härtegrad? Der wird vermutlich einen großen Einfluss haben, d. h. gerade mit dem wirst Du voraussichtlich deutlich mehr von der Laufzeit erklären können.
Soweit erstmal mein Montag-Morgen-Voodoo ;-)
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)geändert von – Barbara on 01/10/2007 21:24:19
Hallo Martin,
ich kann gut verstehen, wenn sich Menschen nicht weiter mit den Tiefen der statistischen Formeln beschäftigen wollen. Was ich allerdings für gefährlich halte ist die Anwendung von scheinbar einfachen Formeln oder Programmen, ohne die Hintergründe zu kennen.
Für mich ist das so ähnlich wie mit dem Autofahren: Auch dafür brauche ich gewisse Grundkenntnisse (Zündung, Lenkrad, Blinker, Straßenverkehrsregeln, usw.) Ich sollte auch beim Autofahren wissen, wo das Gas, wo die Bremse und wo die Gangschaltung / Automatik ist, sonst wird das mit dem Ankommen schwierig. Ich muss dafür *nicht* verstehen, wie die Verbrennung im Motor dafür sorgt, dass sich die Räder drehen.
Natürlich ist es nett, einfach mal ein Modell bzw. eine Formel zu bekommen. Nur wenn ich nicht prüfe, ob das Modell auch solide ist, kann ich damit keine haltbaren Aussagen machen oder Prozesse optimieren.
Bildlich gesprochen habe ich dann zwar das Auto gestartet und bin die ersten Meter gefahren, nur hab ich so noch keine Ahnung von den Verkehrsregeln. Niemand würde einen Autofahrer, der so losfährt (ohne Fahrlehrer!), als gut gerüstet bezeichnen.
Bei den Neurolen Netzwerk-Programmen (wie KNIME) ist es für mich nicht überschaubar, wie die Verkehrsregeln sind. Je nachdem, mit welchem Algorithmus ich unterwegs bin, komme ich an völlig unterschiedlichen Orten raus. Es gibt dort eine Menge Regeln, nur eben keine einheitlichen best practice-Regeln, mit denen ich „gut fahre“. Deshalb sehen neuronale Netzwerke für mich wirklich nett aus und ich schaue sie mir aus der Distanz an. Wenn die Forscher mal an den Punkt kommen, dass sie einheitliche Verkehrsregeln für den NN-Bereich schaffen, werde ich da ausch durchfahren. Solange bleibt das für mich ein Gebiet, mit dem ich mich nicht beschäftige (s. a. Wikipedia Allgemeine Probleme bei Neuronalen Netzen ).
G. Städler kenne ich übrigens nicht. Wer ist das?
Viele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)Hallo Barbara,
(*): Habe einfach einige Einflußgrößen entfernt aus dem GLM, weil diese sowieso weder graphisch noch nach Pearson lineare Zus.hänge hatten und ich als Ergebniss immer wieder ‚Rangfolgefehler aufgrund von […]‘ hatte und damit kein Modell.
(**): Habe jetzt auch ‚Legierung‘ im GLM (s. unten).
(***): Härtegrad ist immer noch nicht drin, kommt noch später.
Mein momentaner GLM:
Zielgröße: Laufzeit
Einflussgrößen:
– Breite Flachdraht
– Stärke Flachdraht
– Durchmesser Runddraht
– Menge Flachdraht
– Legierung
– Verformung in %
– Umformgrad (Runddraht -> Flachdraht)
– Länge Flachdraht
– Verhältnis Breite zu StärkeFaktorinteraktionen:
– Breite Flachdraht * Durchmesser Runddraht
– Stärke Flachdraht * Durchmesser Runddraht
– Länge Flachdraht * Umformgrad
– Drahtdurchmesser * Umformgradmit dazugehörigen Kovariaten.
Habe als Ergebnis:
R-Qd = 93,37% und R-Qd(kor) = 82,40%,
wobei keine weitere Analyse aufrund von […] ausgeführt wird.Frage: Wie kann ich eigentlich die Seq SS Werte interpretieren? Bei einigen Einflußgrößen sind diese gleich 0, bei anderen sehr große Zahlen.. Und was sind Modell-DF’s?
P.S. Das SOM-Toolbox for Matlab (Neuronale Netze) hat eine ziemlich gute Dokumentation, im Vergleich zu vielen anderen KNN-Software. Da kann sich schon ganz gut vorstellen, was da passiert – wird übrigens immer weiter entwickelt und ist Open Source. KKN sind aber natürlich noch in der Entwicklung, können aber bei betimmten Fragestellungen (wenn nichts anderes hilft) mit Erfolg angewendet werden.
Gruß, ***
geändert von – TB on 11/12/2007 16:17:26
Hallo ***,
aha, Ihr macht also aus Runddraht Flachdraht?!
Hmpf, das mit dem Rangfolgefehler ist blöd. Liegt entweder an zu wenig Beobachtungen bei den einzelnen Legierungen (wie klein ist die kleinste Gruppe?) oder daran, dass Du relativ viele berechnete Merkmale drin hast. Berechnete Merkmale bringen zwar ein bisschen mehr Information wenn sie aus einer Multiplikation kommen, sind aber – wegen der Berechnung – auch redundant. Versuch mal, die berechneten rauszulassen und nur die gemessenen Merkmale zu verwenden.
Die Model-DFs sind die Freiheitsgrade im Modell (DF: degress of freedom oder in der bahnbrechenden Übersetzung Freiheitsgrade). Freiheitsgrade geben an, wie viele Informationseinheiten für ein Modell vorhanden sind.
Eigentlich liefern z. B. 2038 Beobachtungen auch 2038 Informationseinheiten (oder auch „Informationstaler“). Damit bist Du ziemlich reich ;-) Wenn Du aber durch die berechneten Merkmale Redundanzen im Modell hast, reduzieren sich die Informationstaler ggf. sehr schnell.
Das passiert übrigens bevorzugt auch dann, wenn bei variablen Merkmalen in Minitab vergessen wird, die auch als variable Merkmale anzugeben (-> Kovariaten).
Die Seq SS steht für sequential sum of squares und geben den Anteil an der Gesamtstreuung eines einzelnen Merkmals an. Eine ausführliche Berechnung dieser Streuungszerlegung findest Du z. B. hier
Was Du auch noch versuchen kannst, wenn Du die Legierung rausnimmst und nur noch variable Einflussgrößen im Modell hast, ist eine schrittweise Regression. In Minitab:
Statistik > Regression > Schrittweise…Wenn Du da Wechselwirkungen drinhaben möchtest, musst Du die vorher per Hand berechnen (Spalte 1*Spalte 2 = WW). In Minitab:
Berechnen > Rechner
Speichern in: WW
Ausdruck: a*bViele Grüße
Barbara
_____________________________________
Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
(Charles Dickens, Schriftsteller)geändert von – Barbara on 01/10/2007 21:24:44
-
AutorBeiträge
- Sie müssen angemeldet sein, um auf dieses Thema antworten zu können.