Regressionsanalyse2007-04-25T10:07:19+01:00

QM-Forum Foren Qualitätsmanagement Regressionsanalyse

Ansicht von 15 Beiträgen – 1 bis 15 (von insgesamt 55)
  • Autor
    Beiträge
  • TB
    Mitglied
    Beitragsanzahl: 32

    Hallo an alle!

    Kurze Vorstellung: Ich arbeite seit Anfang ’07 bei einem mittelständischen Unternehmen und beschäftige mich mit der Prozessmodellierung und -optimierung, also auch zwangsweise mit Regressionsanalysen u.Ä.

    Bin über Barbara Bredner hierher gefunden und möchte mich gerne hier in Sachen statistische Analysen austauschen..

    ***

    Hab gerade ein Projekt, bei dem es um Verbesserung der Qualität einer Legierung geht, wo ich mich bemühe, die Zusammenhänge zwischen den Elementen und dazugehörigen ‚Bausteinen‘ zu finden. Ich benutze zur Zeit die Statistik-Software Minitab, mit der ich auch meine Schwierigkeiten habe..

    Wenn ich ein GLM anwenden, muss ich auch die Kovariaten wählen. Meine Frage wär jetzt: Was genau ein Kovariate bewirkt? Gehe ich richtig in der Annahme, dass eine Kovariate eine Variable ist, von der vermutet, dass sie einen Einfluss hat?!? – sie wird also nicht fest gehalten, oder?!

    Das andere Problem ist, dass ich zwar einen hohen Bestimmtheitsmaß erhalte:

    ‚S = 0,00190187 R-Qd = 99,99% R-Qd(kor) = 99,94%‘

    aber keine Gleichung, sonder das hier:

    ‚+ Rangfolgenfehler aufgrund von leeren Zellen, nicht balancierter Schachtelung,
    Kollinearität oder einer nicht deklarierten Kovariaten. Die Ergebnisse
    werden nicht gespeichert, und es wird keine weitere Analyse ausgeführt.‘

    Was kann da machen? Muss ich jetzt zu Fuß alle Kollinearitäten ausschließen oder verstehe ich was falsch mit den Kovariaten?

    Wäre sehr dankbar für alle Vorschläge und Erklärungen!!!

    Gruß, ***

    geändert von – TB on 11/12/2007 15:59:02

    Michael
    Mitglied
    Beitragsanzahl: 1490

    Hallo!

    Ist nicht böse gemeint, aber mir wäre schon geholfen, wenn mir einer erklärt um was es hier eigentlich geht.

    Gruß
    Michael

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo zusammen,

    @***: Herzlich willkommen hier :-)
    Ich werd Deine Frage nachher detailliert beantworten.

    @Michael: Statistik bzw. statistische Modelle ;-) Etwas ausführlicher findest Du das hier (und auch die Verbindung zum QM):
    http://www.quality-management.com/forum/
    topic.asp?TOPIC_ID=2216&FORUM_ID=14&CAT_ID=1&Topic_Title=
    F%E4higkeiten+bei+Stanzprozessen&Forum_Title=Qualit%E4tsmanagement+ISO+9001%3A2000

    GLM = Generell linear model / Allgemeines lineares Modell
    z. B. so etwas wie eine Ausgleichsgerade.

    Wie gesagt, später mehr.

    Viele Grüße

    Barbara

    _____________________________________

    Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
    (Charles Dickens, Schriftsteller)

    geändert von – Barbara on 26/04/2007 09:29:53

    geändert von – Barbara on 26/04/2007 09:30:16

    geändert von – Barbara on 01/10/2007 21:19:37

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo ***,

    weil heute so schönes Wetter ist, versuche ich das mit den Kovariaten mal an dem Beispiel „Trinkmenge“ zu erklären.

    Wir alle trinken mehr, wenn es wärmer ist. Die Trinkmenge ist also von der Temperatur abhängig (je wärmer, desto mehr trinken).

    Natürlich ist es nicht die Temperatur alleine, von der unsere Trinkmenge abhängt. Da gibt es auch noch einige andere Sachen wie z. B. Sport machen (ja/nein), Klimaanlage vorhanden (ja/nein, da dann die Luft trockener ist), usw.

    Ein statistisches Modell für die Trinkmenge ist dann:
    Trinkmenge ~ Temperatur + Sport + Klimaanlage
    mit
    Zielgröße: Trinkmenge
    Einflussgrößen:
    *Temperatur (variabel)
    *Sport (attributiv)
    *Klimaanlage (attributiv)

    Das statistische Modell liefert eine Erklärung der Zielgröße (Trinkmenge) durch die Einflussgrößen (Temperatur, Sport, Klimaanlage). Allgemein heißen solche Modelle ALM (allgemeine lineare Modelle) oder GLM (general linear model – auf englisch).

    Unterschieden werden dann je nach Merkmalsart der Einflussgrößen (nur attributiv / nur variabel / einige attributiv, einige variabel) verschiedene Arten von statistischen Modellen für variable Zielgrößen:

    +nur attributive Einflussgrößen: Varianzanalyse (ANOVA, Streuungszerlegung)

    +nur variable Einflussgrößen:
    Regressionsanalyse (mit einer Einflussgröße: Ausgleichsgerade)

    +sowohl attributive als auch variable Einflussgrößen:
    Kovarianzmodell
    (wie bei dem Trinkmengen-Modell)

    Als Kovariaten werden die variablen Einflussgrößen bezeichnet (wie oben die Temperatur z. B.) Bei der Trinkmenge ist es klar, dass die Temperatur einen Einfluss hat. Natürlich können auch andere Einflussgrößen wie Alter, Aufenthaltsdauer im Freien, usw. eine Rolle spielen.

    (Es gibt natürlich noch eine ganze Menge anderer Modelle, z. B. für attributive Zielgrößen oder nicht-lineare Zusammenhänge.)

    In einem statistischen Modell werden erstmal alle möglicherweise wichtigen Einflussgrößen aufgenommen. Nach der Modellierung zeigt mir dann das Ergebnis, ob eine Einflussgröße einen wichtigen Effekt auf die Zielgröße hat oder ob sie unwichtig für dieses Modell ist.

    Ich muss also weder von vorneherein wissen, ob eine Einflussgröße wichtig ist, noch muss ich sie konstant halten. Im Gegenteil: unterschiedliche Werte bedeuten mehr Information und damit eine bessere Entscheidungsbasis dafür, ob eine Einflussgröße wichtig oder unwichtig ist.

    Die Fehlermeldung („+Rangfolgefehler…“) taucht in Minitab auf, wenn zu wenig Informationen vorhanden sind. Z. B. brauchst Du, um Aussagen über Kombinationen von attributiven Merkmalen machen zu können, auch Werte für diese Kombination.

    Bei der Trinkmenge kann ich nur dann für Menschen mit Sport:ja und Klimaanlage:ja eine Trinkmenge schätzen, wenn ich in meinen Messwerten auch Menschen hatte, die Sport:ja und Klimaanlage:ja hatten und für die ich die Trinkmenge habe.

    Wenn ich viele attributive Einflussgrößen habe, steigt natürlich die Zahl der Kombinationsmöglichkeiten ziemlich schnell:
    Sport: 2 Möglichkeiten
    Klimaanlage: 2 Möglichkeiten
    d. h. insgesamt 2*2=4 Kombinationen möglich
    wenn dazu noch
    Haustier: ja/nein (2 Möglichkeiten)
    körperlich anstrengender Beruf: nein / ein bisschen / stark (3 Möglichkeiten)
    Arbeitszeit: Tag/Nacht (2 Möglichkeiten)
    dazu kommen, dann hab ich
    2*2 *2*3*2 = 48 Kombinationsmöglichkeiten
    und für jede brauche ich Messwerte, sonst ist das mit dem Schätzen schwierig.

    Ein unschönes Ergebnis ist neben der Rangfolge-Fehlermeldung, dass die Anpassungsgüte R-Qd /R² zwar sehr hoch zu sein scheint, aber keine p-Werte ausgegeben werden, weil das Modell zusammengeklappt ist.

    JedeM, der bis hierher gelesen hat, erstmal einen Orden fürs Durchhalten ;-) Denn jetzt kommt die entscheidende Frage:

    WOFÜR ZUM HENKER BRAUCH ICH DAS?

    TB hat ja schon geschrieben, dass es bei ihnen für die Prozessmodellierung und -optimierung eingesetzt wird. Also zwei bekannte QM-Themen. Wo ist da die Statistik?

    Stellt Euch vor, Ihr seid Hersteller von Mineralwasser. Damit Ihr Eure Produktion gut planen könnt, braucht Ihr vernünftige (haltbare, zuverlässige) Schätzungen für den Verbrauch von Mineralwasser. Natürlich könnt Ihr hingehen und aus den Absatzzahlen vom Vorjahr schätzen, wie viel produziert werden muss, damit die Nachfrage befriedigt wird.

    Das Problem dabei ist, dass Ihr beim Vorjahr eventuell (so wie im Moment) völlig andere Temperaturverhältnisse habt. Damit sind die Vorjahreszahlen (oder auch die Vorjahres- und Vorvorjahres- und…) nur ein grober Anhaltspunkt für den Bedarf, weil sie z. B. die aktuelle Temperatur vernachlässigen.

    Um meine Vorhersagen zum Absatz zu verbessern, kann ich deshalb ein statistisches Modell einsetzen, dass mir die Abhängigkeit zwischen der Temperatur und dem Mineralwasserbedarf angibt. Und schwupps brauche ich weniger Lager, weil ich genauer weiß, wie viel voraussichtlich verbraucht werden wird und kann auch besser die Menschen im Werk einsetzen usw.

    Natürlich funktionieren die statistischen Modelle auch für alle anderen Prozesse wie die Metallverarbeitung bei TB. Ein mögliches Modell ist:
    Festigkeit ~ Anteil Stoff1 + Anteil Stoff2 + Druck + Zeit + Linie(A/B)

    Damit kann ich dann prüfen, ob die Stoff-Anteile einen Einfluss auf die Festigkeit haben und/oder der Druck und/oder die Zeit und/oder die Linie. Und das Ganze mit den vorhandenen Daten (aus BDE, MDE) ohne weitere Versuche machen zu müssen, an der Maschine etwas ändern zu müssen oder am Prozess.

    Viele Grüße

    Barbara

    _____________________________________

    Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
    (Charles Dickens, Schriftsteller)

    geändert von – Barbara on 01/10/2007 21:19:58

    TB
    Mitglied
    Beitragsanzahl: 32

    Hallo Barbara!

    Vielen vielen vielen Dank für die sehr gute und detaillierte Erklärung!!! Da solltest Du einen Orden für bekommen! :-)

    Zu meinem Beispiel noch kurze Erläuterung: Es geht also um eine neue Legierung. Die Einflußgrößen sind verschiedene chem. Elemente (also variabel). Die Zielgröße ist die Thermospannung (bzw. die Summe der Abstände Ist-Soll, von der natürlich erwartet wird, dass sie minimal sein sollte, nennen wir sie ‚T‘). Eine direkte lineare Abhängigkeit gibt es zwischen der Ziel- und den Einflußgrößen nicht, das weiß man.
    -> Regressionsanalyse mit unterschiedlichen Abhängigkeiten muss her – also: x*x, x*y usw.

    Wenn ich bei GLM in Minitab ‚T‘ als Antwort eingebe, kann ich aber leider solche Wechselwirkungen wie x*y nicht eingeben, also bsp. Element1*T.. Mache ich grundsätzlich was falsch?

    Ich habe zur Sicherheit (auch wenn ich weiß, dass ich da kein gutes Modell bekomme) alle x(i)*x(j) ausprobiert, mit Angabe von x(i) als Kovariate – da wird ein Modell geliefert, allerdings, wie erwartet, mit sehr kleiner Anpassunggüte und p-Werte von einzelnen x waren auch alle >0,05.. Muss also die Wechselwirkungen betrachten, aber wie?!..

    Danke im Voraus.

    Gruß, ***

    geändert von – TB on 11/12/2007 16:01:20

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo ***,

    sage mal, wie viele Datensätze hast Du denn?

    Ein Modell kann natürlich auch dann zusammklappen, wenn es nicht genug „Futter“ hat. Wenn Du z. B. versuchst, mit 10 Werten für die Zielgröße T fünf Einflussgrößen und alle Wechselwirkungen zwischen den Einflussgrößen zu schätzen, dann ist das zu wenig Datenmaterial und gibt dann die Rangfolge-Fehlermeldung.

    Wechselwirkungen kannst Du nur zwischen den Einflussgrößen definieren (den Effekt der Einflussgröße auf die Zielgröße T liefert ja das Modell). Ni*T kann deshalb nicht funktionieren.

    Wenn Du eine Wechselwirkung in ein Modell aufnehmen willst, braucht Du auf jeden Fall auch die einzelnen Einflussgrößen, d. h. für eine Wechselwirkung zwischen Ni und Fe wird in das Modell aufgenommen:
    Zielgröße (Antwort): T
    Modell: Ni Fe Ni*Fe
    Kovariaten: Ni Fe

    Wenn das Modell trotz vielen Daten und richtigen Angaben immer noch zusammenklappt, würde ich noch mal nachschauen, wie die einzelnen Ziel- und Einflussgrößen sich zueinander verhalten und ob da Strukturen zu erkennen sind und wie die aussehen (Ausreißer, lineare und nicht-lineare Zusammenhänge, usw.)
    (In Minitab: Grafiken -> Matrixplot -> Einfach -> Grafikvariablen: alle variablen Ziel- und Einflussgrößen eintragen)

    Wenn es nur variable Einflussgrößen sind, kann auch eine schrittweise Regression helfen, bei der nach und nach die wichtigen Einflussgrößen aus allen Einflussgrößen gewählt werden, bis das Modell nicht mehr besser wird.
    (in Minitab: Statistik -> Regression -> Schrittweise, Antwort: T, Prädiktoren: alle Einflussgrößen, hier können keine Wechselwirkungen berücksichtigt werden)

    Ich hoffe, das hilft Dir erstmal weiter.

    Viele Grüße

    Barbara

    _____________________________________

    Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
    (Charles Dickens, Schriftsteller)

    geändert von – Barbara on 01/10/2007 21:20:24

    TB
    Mitglied
    Beitragsanzahl: 32

    Hallo Barbara,

    danke für die schnelle Antwort.

    Zunächst mal waren es ca. 100 Datensätze. Nachdem ich aber alle Ausreißer rausgeschmiessen hab, sind es nur noch 58 da geblieben.. eigentlich nicht zu wenig, aber auch nicht gerade viel..

    Das Modell habe ich genauso wie Du es geschrieben hast aufgebaut:

    Antwort: T
    Modell: Element1 Element2 Element1*Element2
    Kovariaten: Element1 Element2

    natürlich mit viel mehr Elementen (=Einflußgrößen) drin.

    R-Qd ist ca. 10% und die p-Werte bei allen Einflußgrößen sehen nicht gerade gut aus..

    Habe auch im Vorfeld mit Matrixplot fast alle möglichen Variablen gegeneinander visuell untersucht – es gibt keine erkennbaren Zusammenhänge – das ist ja das Problem.. :-( Muss also alle möglichen Kombinationen von Elementen noch durchgehen, um ganz sicher zu sein.

    Vielen Dank für den Tipp der schrittweise Regression – werde es demnächst ausprobieren.

    Gruß, ***

    geändert von – TB on 11/12/2007 16:03:19

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo ***,

    versuch mal was passiert, wenn Du die gleichen Modelle mit den unbereinigten Daten rechnest. Eventuell hast Du dadurch, dass Du die Ausreißer rausgenommen hast, die interessanten Strukturen eliminiert (wenn das nur etwas ungewöhnliche Werte waren).

    Das wäre dann in etwas so, als würdest Du versuchen, aus einem glatt gehobelten Brett die Form des Baumes abzulesen – echt schwierig.

    Viele Grüße

    Barbara

    _____________________________________

    Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
    (Charles Dickens, Schriftsteller)

    geändert von – Barbara on 01/10/2007 21:20:45

    TB
    Mitglied
    Beitragsanzahl: 32

    Vielen Dank für den Tipp, Barbara, werde den auf jeden Fall nutzen!

    Wünsche schönes Wochenende!
    (hab die nächsten fünf Tage frei und versuche nicht zuviel an Regression zu denken, damit ich keine Depression bekomme.. ;-) )

    Gruß, ***

    geändert von – TB on 11/12/2007 16:04:47

    TB
    Mitglied
    Beitragsanzahl: 32

    Hallo Barbara,

    hab inzwischen die Regression und auch GLM mit Wechselwirkungen mit allen vorhandenen Daten (mit Ausreißern) durchgeführt und leider keine besseren Ergebnisse damit erzielt.. Bei Regression erhalte ich R-Qd/R² bei ca. 35%, bei GLM sieht die Güte vielversprechend aus (mehr als 80%), es wird aber keine weitere Analyse durchgeführt (wie davor auch).. Die schrittweise Regression liefert auch einen Bestimmtheitsmaß von ca. 35%, was natürlich ungenügend ist.

    Vielleicht habe ich die sogenannte ‚Distanz‘ (das ist meine Antwort ‚T‘) nicht besonders clever berechnet!? Die Situation ist die: Ich habe Messungen für eine Probe in 50°C-Schritten (also 20 Messungen pro Probe). Diese Messungen sind also IST-Messungen, die ich mit den vorgegebenen SOLL-Messungen vergleichen kann. Ich habe mich dafür entschieden, die ‚Distanz‘, also den Abstand zwischen jeder Messung und dem Soll-Wert zu berechnen und diese dann über alle Temperaturen zu summieren (wird ja das Minimum, also 0, angestrebt) – war das erste, was mir so in den Sinn gekommen ist. Also Summe_i=1:20(Betrag_i(IST_i-SOLL_i)). Hast Du (oder jemand anderer aus dem Forum) vielleicht eine Idee, wie man das geschickter macht? Diese Kennzahl soll ja dann von den Analysen der Legierung (chem.Elemente) abhängen, was sie aber leider nicht macht.. P.S. Die Wurzel aus der summe der quadrierten Abstände habe ich auch schon untersucht – kein Erfolg..

    Bin für jede Hilfe dankbar!

    Gruß, ***

    geändert von – TB on 11/12/2007 16:06:47

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo ***,

    hm, ich würd eine andere Zielgröße wählen. Wenn Du den Absolutbetrag Ist-Soll verwendest, gibt es zwei Schwierigkeiten:

    1. Es fehlt die Richtung der Abweichung.

    2. Du machst mit einem (statistischen) Prozessmodell ein Modell für das IST. Das SOLL ist das, was Du später mit Deinen Modellparametern vergleichen kannst.

    Was mir noch nicht so ganz klar ist, ist die Zusammenfassung der 20 Werte. Die Abmessungen ändern sich doch eventuell bei den Temperaturen (würd ich jetzt mal behaupten, ohne Euren Prozess zu kennen). Insofern ist die Zusammenfassung ein ziemlicher Informationsverlust, weil so die Abhängigkeit von der Temperatur verloren geht.

    Ich würde deshalb die Temperatur als Einflussgröße mit in das Modell aufnehmen und erstmal gar nichts zusammenfassen. Das hat den Vorteil, dass dann auch mehr Messwerte (=Informationen) vorhanden sind.

    Wenn Du die Werte zusammenfassen willst/musst, würde ich verschiedene Kennzahlen versuchen, z. B. Mittelwert, Median, Minimum oder Maximum. Und erst wenn das Prozessmodell funktioniert, würde ich mir das Zusammenspiel der einzelnen Parameter anschauen und mit dem gewünschten Ziel / Soll vergleichen.

    Viele Grüße

    Barbara

    _____________________________________

    Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
    (Charles Dickens, Schriftsteller)

    geändert von – Barbara on 01/10/2007 21:21:15

    TB
    Mitglied
    Beitragsanzahl: 32

    Hallo Barbara,

    ich glaube, ich gehe die ganze Sache irgendwie falsch an..

    <<Zitat: Wenn Du den Absolutbetrag Ist-Soll verwendest, gibt es zwei Schwierigkeiten:
    1. Es fehlt die Richtung der Abweichung. 2. Du machst mit einem (statistischen) Prozessmodell ein Modell für das IST.>>

    Die Richtung der Abweichung ist in diesem Fall nicht von Bedeutung. Mich interessierte nur, wie weit sozusagen die Abweichung vordringt, also wie schlecht Ist von Soll entfernt ist.

    Du hast Recht, die Abmessungen ändern sich mit der Temperatur, sie steigen.

    <<Zitat: Ich würde deshalb die Temperatur als Einflussgröße mit in das Modell aufnehmen und erstmal gar nichts zusammenfassen. Das hat den Vorteil, dass dann auch mehr Messwerte (=Informationen) vorhanden sind.>>

    Meinst Du jetzt die Temperatur oder die Messwerte für die jeweilige Temperatur?
    Wie würde das denn aussehen: Zielgröße: ?? Einflussgrößen: ?? Irgendwie bin ich total verwirrt.. Die Messungen M_j kann man doch nicht wirklich alle in das Modell reinnehmen, oder? – die hängen voneinander ab, aber leider nicht von den Elementen, was aber gesucht wird.

    Zusammenfassen muss ich die Messwerte nicht, hatte aber davon ausgegangen, dass das sinnvoll wäre..

    Mit Dank im Voraus!

    Gruß, ***

    geändert von – TB on 11/12/2007 16:08:31

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo ***,

    tut mir leid, dass ich erst jetzt antworte; ich hab letzte Woche einige andere Menschen mit Statistik beglückt ;-)

    Also:

    Ein statistisches Prozess-Modell (ich kürz das mal mit SPM ab) liefert ein Modell für das IST. (Schau mal in die Unterlagen, das IST sind die orangenen Punkte.) Wenn das Modell funktioniert (Stichworte: R² & Residuen), dann kannst Du das Ergebnis mit den Anforderungen (SOLL) vergleichen.

    Vorher im SPM schon das SOLL mit aufzunehmen heißt, dass die Messwerte direkt etwas mit den Anforderungen zu tun haben. Die sollen das zwar, aber ob das tatsächlich so ist, weißt Du ja vorher noch nicht. Deshalb kommt der IST-SOLL-Vergleich erst *nachdem* das SPM steht.

    Die erste Frage in der Modellierung ist deshalb:
    Was beeinflusst meine Zielgröße Thermospannung?
    (Die SOLL-Vorgaben beeinflussen die Werte der Zielgröße NICHT!)

    Einflüsse sind bei Dir die Temperatur und die chemischen Elemente (und vielleicht noch andere Größen).

    Testet Ihr eigentlich standardmäßig in dem von Dir genannten Temperaturbereich oder ist das auch der spätere Einsatzbereich (von der Temperatur aus gesehen)? Was ist eigentlich genau interessant bei der Zielgröße: Der Wert bei einer bestimmten (festen) Temperatur oder auch die Veränderungen der Thermospannung in Abhängigkeit von der Temperatur?

    Erst wenn das SPM funktioniert, kommt die zweite Frage:
    Wie sieht der Vergleich von IST (SPM) und SOLL aus? Mit welchen Werten (der chemischen Elemente) komme ich meinem Sollwert am nächsten?

    Viele Grüße

    Barbara

    _____________________________________

    Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
    (Charles Dickens, Schriftsteller)

    geändert von – Barbara on 01/10/2007 21:21:38

    TB
    Mitglied
    Beitragsanzahl: 32

    Hallo Barbara,

    Du hast natürlich Recht, dass man SOLL erst nachdem das Modell steht anwenden sollte (bzw. mit SOLL vergleichen). Ich hatte aber gar keine Muster in den Daten, sodass ich mir gedacht hab, über SOLL einen Ausweg zu finden, und dabei war diese ‚Distanz‘ das erste, was mir in den Sinn kam.. Ok, muss diese Idee wohl ganz aufgeben.. :-)

    Die Zielgröße ‚T‘ hängt von den einzelnen chem. Elementen (chem. Analyse) und der Temperatur ab.

    Wichtig ist, wie Du richtig vermutest, der Kurvenverlauf. Also sind sowohl der Wert bei einer bestimmten Temperatur als auch die Veränderung von T interessant. Wie ich das in ein Modell reinbekommen soll, weiß ich leider nicht..

    Das größte Problem ist, dass man kein Muster in den Daten erkennen kann.. Wir überlegen schon, ob wir Versuchsplanung machen, um an brauchbare Daten zu kommen – das werden aber nur wenige Daten sein (ca. 50).

    Danke für sehr gute Erläuterungen!

    Gruß, ***

    geändert von – TB on 11/12/2007 16:10:08

    Barbara
    Senior Moderator
    Beitragsanzahl: 2766

    Hallo ***,

    das schöne bei SPMs ist ja gerade, dass die nicht-sichtbaren Strukturen gefunden werden können. Schon wenn Du versuchst, den Einfluss von zwei Einflussgrößen auf eine Zielgröße grafisch zu erfassen, hast Du kaum noch eine Chance, weil sich ein 3D-Streudiagramm in so viele 2D-Ansichten drehen lässt, dass Du einiges an Glück brauchst, um da den Zusammenhang zu sehen. Und wenn dann noch Wechselwirkungen dazu kommen, wird es noch viel schwieriger.

    Ein lineares SPM setzt voraus, dass der Einfluss der Einflussgrößen auf die Zielgröße linear ist. Bei Dir ist schon bekannt (und auch logisch), dass der Einfluss der Temperatur auf die Thermospannung nicht-linear ist.

    In dieser Situation ist deshalb der erste Schritt, über eine geeignete linearisierende Transformation der Einflussgröße X (Temperatur) einen linearen Zusammenhang zwischen Temperatur und Zielgröße Thermospannung herzustellen. Ein möglicher Ansatz dafür ist eine Box-Cox-Transformation, bei der mit verschiedenen Potenzen versucht wird, den Zusammenhang zu linearisieren, z. B. mit log(X), Wurzel(X) = X^(-1/2), X^(-1/3), usw.

    Vielleicht gibt es bei Dir ja auch schon Untersuchungen, die beim Finden der besten Transformation helfen können.

    Wenn nicht, erzeug einfach einige Spalten mit den verschiedenen Transformationen für die 100 Prüfstücke und schau nach, bei welcher Transformation die Regression / Ausgleichsgerade am besten wird.

    Der nächste Schritt ist dann, diese transformatierte Einflussgröße Trafo(Temperatur) zusammen mit den chemischen Einflussgrößen in ein SPM zu packen:

    Thermospannung ~ Trafo(Temp) + Ni + Fe + …

    Da Du (wenn ich das richtig verstanden habe) insgesamt 2000 Beobachtungen hast (jeweils 20 Temperatur-Messungen bei den 100 Prüfstücken), könnte das schon funktionieren.

    Sollte das SPM dann abstürzen und keine Ergebnisse ausspucken, liegt das daran, dass in den Spalten für die chemischen Elemente sehr häufig die gleichen Einträge stehen, da die 100 Prüfstücke immer die gleichen Analyse-Ergebnisse haben. Sofern es messbare Unterschiede in den Analyse-Ergebnissen gibt, sollte das ausbleiben. (Da ich Deine Daten nicht kenne, kann ich das allerdings nicht von vorneherein ausschließen.)

    Und dann gibt es natürlich noch einige andere Verfahren, mit denen die Datenstruktur beim Einfluss der chemischen Elementen untersucht werden könnte.

    Wenn Ihr Versuche machen wollt, dann erspart Euch die statistische Versuchsplanung einiges an Aufwand, deshalb rate ich Dir dringend, einen DoE-Plan zu verwenden.

    Bei den 10 Einflussgrößen (Temperatur und 9 chemische Elemente) und bereits bekannten Wechselwirkungen wäre es sinnvoll, einen fraktionierten faktoriellen Ansatz zu verwenden, genauer einen 2^(10-p)-Plan. Wenn Ihr davon ausgehen könnt, dass Vierfach-Wechselwirkungen wahrscheinlich eine sehr viel weniger wichtige Rolle spielen als Haupteffekte, Zweifach-Wechselwirkungen und Dreifach-Wechselwirkungen, ist z. B. ein 2^(10-5)-Plan mit 32 Versuchen eine Möglichkeit.

    Hilfreich ist für die Versuche (egal ob nun statistische Versuchsplanung oder andere Methoden) auf jeden Fall, die Zusammenhangsstruktur vorab schon intensiv zu untersuchen, so wie Du das jetzt machst. Denn auch wenn Du ein klein wenig mehr Daten hast, wirst Du ja trotzdem wieder nicht-lineare Zusammenhänge über die Temperatur und Wechselwirkungen bekommen.

    Viele Grüße

    Barbara

    _____________________________________

    Ich fühle, dass Kleinigkeiten die Summe des Lebens ausmachen.
    (Charles Dickens, Schriftsteller)

    geändert von – Barbara on 01/10/2007 21:22:04

Ansicht von 15 Beiträgen – 1 bis 15 (von insgesamt 55)
  • Sie müssen angemeldet sein, um auf dieses Thema antworten zu können.
Nach oben