HINWEIS: Die IDRE Statistische Beratungsgruppe wird die Website im Februar auf das WordPress CMS migrieren, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, Umleitungen zu pflegen, damit die alten URLs weiterhin so gut funktionieren wie möglich. Willkommen im Institut für Digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata FAQ Wie kann ich fehlende Werte in verschiedene Kategorien zurücksetzen Stata erlaubt uns, verschiedene Arten von numerischen fehlenden Werten zu kodieren. Es hat 27 numerische fehlende Kategorien. Z. B. . Auf dieser Seite zeigen wir, wie man fehlende Werte in verschiedene Kategorien eingibt. Zuerst erstellen wir einen Datensatz zum Zwecke der Veranschaulichung. In diesem Datensatz sind alle Variablen numerisch und die Variablen weiblich und ses haben fehlende Werte. Die nicht fehlenden Werte für variable weibliche sind 0 (für männlich) und 1 (für weiblich). Die nicht fehlenden Werte für die Variable ses sind 0 (niedrig), 1 (med) und 2 (hoch). Der Rest der Werte gilt als fehlende Werte. Lasst uns sagen, dass wir Code -999 in eine Kategorie, -99 in einen anderen und den Rest der fehlenden Werte in eine dritte Kategorie für alle Variablen Code. Methode 1: Verwendung des Befehls ersetzen Wir können fehlende Werte manuell ersetzen, indem wir für -999 ,,b für -99 und. c für den Rest der fehlenden Werte lesen. Zum Beispiel für variable weibliche. Können wir folgendes tun: Der obige Codebuchbefehl zeigt, dass die Variable weiblich drei Arten von fehlenden Werten und 4 fehlenden Werten hat. Methode 2: Verwenden von Befehl mvdecode Methode 1 kann nicht die beste Art sein, fehlende Werte in verschiedene Kategorien umzuwandeln. Zum einen müssen wir das mal eine Variable machen. Statas mvdecode Befehl kommt für uns praktisch Besser noch können wir das Schlüsselwort verwenden, um alle Variablen im Datensatz zu verweisen. Gehen von fehlenden Wertcodes zu numerischen Werten Das andere Problem, das wir hier abdecken werden, ist, wie man fehlende Wertcodes wieder auf numerische Werte ändert. Der Befehl mvencode ist gepaart mit Befehl mvdecode, den wir gerade oben abgedeckt haben und der hier zu verwenden ist. Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden. NOTICE: Die IDRE Statistische Beratungsgruppe wird die Website migrieren die Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, Umleitungen zu pflegen, damit die alten URLs weiterhin so gut funktionieren wie möglich. Willkommen beim Institut für Digitale Forschung und Bildung Hilf der Stat Consulting Group, indem du ein Geschenk schreibst STATA Learning Module Fehlende Daten 1. Einleitung Dieses Modul erkennt fehlende Daten in STATA und konzentriert sich auf numerische fehlende Daten. Es wird beschrieben, wie man fehlende Daten in Ihren Rohdatendateien angibt, sowie wie fehlende Daten in STATA logischen Befehlen und Zuweisungsanweisungen behandelt werden. Wir werden einige der fehlenden Dateneigenschaften in STATA anhand von Daten aus einer Reaktionszeitstudie mit acht Themen, die durch die Variable id angegeben sind, veranschaulichen. Und die Probanden Reaktionszeiten wurden zu drei Zeitpunkten gemessen (trial1 trial2 trial3). Die Eingabedatendatei ist unten dargestellt. Sie könnten feststellen, dass einige der Reaktionszeiten mit einem einzigen codiert sind. Wie es der Fall für das Thema 2 ist. Die Person, die die Zeit für diesen Versuch misst, hat die Reaktionszeit nicht richtig gemessen, daher fehlen die Daten für den zweiten Versuch. 2. Wie STATA fehlende Daten in STATA-Prozeduren verarbeitet In der Regel werden STATA-Befehle, die Berechnungen eines beliebigen Typs durchführen, fehlende Daten fehlen, indem sie die fehlenden Werte auslassen. Allerdings ist die Art und Weise, wie fehlende Werte weggelassen werden, nicht immer konsistent über Befehle, also lassen Sie sich einige Beispiele anschauen. Zuerst fassen wir unsere Reaktionszeitvariablen zusammen und sehen, wie STATA die fehlenden Werte verarbeitet. Wie Sie in der unten stehenden Ausgabe sehen, fassen Sie zusammengefasste Mittel mit 4 Beobachtungen für Versuch1 und Trial2 und 6 Beobachtungen für Versuch3 zusammen. Kurz gesagt, der Zusammenfassungsbefehl führte die Berechnungen aller verfügbaren Daten durch. Ein zweites Beispiel zeigt, wie der Tabulator - oder tab1-Befehl fehlende Daten verarbeitet. Wie zusammengefasst, verwendet tab1 nur verfügbare Daten. Beachten Sie, dass die Prozentsätze auf der Grundlage der Gesamtzahl der nicht fehlenden Fälle berechnet werden. Es ist möglich, dass die Prozentsätze aus der Gesamtzahl der Beobachtungen berechnet werden sollen und der Prozentsatz für jede in der Tabelle angegebene Variable fehlt. Dies kann durch Einbeziehung der fehlenden Option nach der Tabellierung erreicht werden. Befehl, Let39s schaut, wie der Korrelationsbefehl fehlende Daten verarbeitet. Wir würden erwarten, dass es die Berechnungen auf der Grundlage der verfügbaren Daten durchführen und die fehlenden Werte weglassen würde. Hier ist ein Beispielbefehl. Die Ausgabe ist unten dargestellt. Beachten Sie, wie die fehlenden Werte ausgeschlossen wurden. Stata führt Listenlöschung aus und zeigt nur Korrelation für Beobachtungen an, die nicht fehlende Werte auf allen aufgeführten Variablen haben. Stata erlaubt auch eine paarweise Löschung. Korrelationen werden für die Beobachtungen angezeigt, die für jedes Paar von Variablen nicht fehlende Werte haben. Dies geschieht mit dem Befehl pwcorr. Wir verwenden die obs-Option, um die Anzahl der Beobachtungen anzuzeigen, die für jedes Paar verwendet werden, wie Sie sehen können, sie unterscheiden sich je nach der Menge an fehlenden. 3. Zusammenfassung, wie fehlende Werte in STATA-Prozeduren behandelt werden Zusammenfassen Für jede Variable wird die Anzahl der nicht fehlenden Werte verwendet. Tabellierung Standardmäßig sind fehlende Werte ausgeschlossen und Prozentsätze basieren auf der Anzahl der nicht fehlenden Werte. Wenn Sie die fehlende Option auf dem Tab-Befehl verwenden, basieren die Prozentsätze auf der Gesamtzahl der Beobachtungen (nicht fehlende und fehlende) und der Prozentsatz der fehlenden Werte wird in der Tabelle angegeben. Corr Standardmäßig werden Korrelationen auf der Grundlage der Anzahl der Paare mit nicht fehlenden Daten berechnet (paarweise Löschen von fehlenden Daten). Der Befehl pwcorr kann verwendet werden, um zu verlangen, dass Korrelationen nur für Beobachtungen berechnet werden, die nicht fehlende Daten für alle Variablen haben, die nach dem Befehl pwcorr aufgelistet sind (listwise Löschen von fehlenden Daten). Reg Wenn irgendwelche der nach dem reg-Befehl aufgelisteten Variablen fehlen, werden die Beobachtungen, die diesen Wert (s) fehlen, von der Analyse ausgeschlossen (d. h. Listenlöschung der fehlenden Daten). Für weitere Vorgehensweisen siehe das STATA-Handbuch zur Information darüber, wie fehlende Daten behandelt werden. 4. Fehlende Werte in Zuweisungsanweisungen Es ist wichtig zu verstehen, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Betrachten Sie das unten gezeigte Beispiel. Der nachfolgende Listenbefehl veranschaulicht, wie fehlende Werte in Zuweisungsanweisungen behandelt werden. Die Variable sum1 basiert auf den Variablen trial1 trial2 und trial3. Wenn irgendwelche dieser Variablen fehlten, wurde der Wert für sum1 auf fehlen gesetzt. Für die Beobachtungen 2, 3 und 4 fehlt also sum1, wie es bei der Beobachtung 7 der Fall ist. In der Regel ergeben Berechnungen mit fehlenden Werten fehlende Werte. Beispiel 2 ergibt sich 2 2. Erträge 2 2 ergibt 1. 2 Ausbeuten. 2 3 ergibt 6 2. Erträge Wann immer Sie hinzufügen, subtrahieren, multiplizieren, teilen, etc. Werte, die fehlende Daten beinhalten, fehlt das Ergebnis. In unserem Reaktionszeitversuch fehlt die Gesamtreaktionszeit sum1 für vier von sieben Fällen. Wir könnten versuchen, die Daten für die nicht-fehlenden Versuche zu berechnen, indem wir die Runden-Funktion verwenden, wie im folgenden Beispiel gezeigt. Die folgenden Ergebnisse zeigen, dass sum2 nun die Summe der nicht fehlenden Versuche enthält. Beachten Sie, dass die Rundspeicherfunktion als Nullwert fehlt. Beim Summieren von mehreren Variablen kann es nicht sinnvoll sein, fehlende als null zu behandeln, wenn auf allen Variablen fehlende Beobachtungen fehlen. Die Rastertitelfunktion mit der fehlenden Option gibt einen fehlenden Wert zurück, wenn auf allen Variablen eine Beobachtung fehlt. Andere Aussagen funktionieren ähnlich. Zum Beispiel hat beobachtet, was passiert ist, wenn wir versuchen, eine durchschnittliche Variable ohne Verwendung einer Funktion (wie im Beispiel unten) zu erstellen. Wenn eine der Variablen trial1, trial2 oder trial3 fehlt, wird der Wert für avg1 auf fehlen gesetzt. Alternativ übergibt die rowmean-Funktion die Daten für die nicht-fehlenden Versuche in gleicher Weise wie die Rundspeicherfunktion. Anmerkung: Hätte es eine große Anzahl von Versuchen gegeben, sag 50 Versuche, dann wäre es nervig, avgrowmean (trial1 trial2 trial3 trial4.) Eingeben zu müssen. Hier ist eine Verknüpfung, die du in dieser Art von Situation verwenden kannst: Schließlich kannst du die rowmiss - und rownomiss-Funktionen verwenden, um die Anzahl der fehlenden und die Anzahl der nicht fehlenden Werte in einer Liste von Variablen zu bestimmen. Dies ist unten dargestellt. Für variablen Nomiss. Die Beobachtungen 1, 5 und 6 hatten drei gültige Werte, die Beobachtungen 2 und 3 hatten zwei gültige Werte, die Beobachtung 4 hatte nur einen gültigen Wert und die Beobachtung 7 hatte keine gültigen Werte. Die Variable Miss zeigt das Gegenteil, es gibt eine Anzahl der fehlenden Werte. 5. Fehlende Werte in logischen Anweisungen Es ist wichtig zu verstehen, wie fehlende Werte in logischen Anweisungen behandelt werden. Zum Beispiel sagen Sie, dass Sie eine 01-Variable für trial1 erstellen möchten, die 1 ist, wenn es 1,5 oder weniger ist, und 0, wenn es über 1.5 ist. Wir zeigen dies unten (falsch, wie Sie sehen werden). Es scheint, dass etwas mit unserer neu geschaffenen Variablen newvar1 schief gegangen ist. Die Beobachtungen mit fehlenden Werten für trial2 wurden für newvar1 eine Null zugewiesen. Lassen Sie sich erforschen, warum dies geschah, indem Sie die Häufigkeitstabelle von trial2 anschauen. Wie Sie in der Ausgabe sehen können, sind fehlende Werte nach dem höchsten Wert aufgeführt. Dies liegt daran, dass STATA einen fehlenden Wert als größtmöglichen Wert (zB positive Unendlichkeit) behandelt und dieser Wert größer als 2,1 ist, also dann die Werte für Newvar1 wird 0. Jetzt, da wir verstehen, wie STATA fehlende Werte behandelt, werden wir ausdrücklich fehlende Werte ausschließen, um sicherzustellen, dass sie richtig behandelt werden, wie unten gezeigt. Wie Sie in der nachfolgenden STATA-Ausgabe sehen können, hat die neue Variable newvar2 fehlende Werte für Beobachtungen, die auch für trial2 fehlen. 6. Fehlende Werte in logischen Anweisungen Beim Erstellen oder Umkodieren von Variablen, die fehlende Werte beinhalten, achten Sie immer darauf, ob die Variable fehlende Werte enthält. 7. Für weitere Informationen Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden.
No comments:
Post a Comment