Sunday, 8 October 2017

Manglende Data Imputering Binære Alternativer


16 1 2 Generelle prinsipper for å håndtere manglende data. Det er en stor litteratur om statistiske metoder for å håndtere manglende data. Her gjennomgår vi noen sentrale begreper og gir generelle anbefalinger til Cochrane review forfattere. Det er viktig å tenke på hvorfor data mangler data Statistikere bruker ofte vilkårene tilfeldig, og mangler ikke tilfeldig for å representere forskjellige scenarier. Data sies å gå sakte tilfeldig hvis det faktum at de mangler, er ikke relatert til faktiske verdier av de manglende dataene. For eksempel, hvis noen kvalitetskrav - liv spørreskjemaer gikk tapt i postsystemet, dette ville ikke trolig være relatert til livskvaliteten til forsøksdeltakere som fullførte skjemaene. Under noen omstendigheter skiller statistikere mellom data som mangler tilfeldig og data mangler helt tilfeldig, men i tilfelle sammenhengene med en systematisk gjennomgang er forskjellen lite sannsynlig å være viktig. Data som mangler tilfeldig, kan ikke være viktige. Analyser basert På de tilgjengelige dataene vil tendens til å være upartisk, selv om det er basert på en mindre prøvestørrelse enn det opprinnelige datasettet. Data er ikke ment å mangle tilfeldig hvis det faktum at de mangler, er relatert til de faktiske manglende dataene. For eksempel i en depresjon, deltakerne som hadde et tilbakefall av depresjon, kan være mindre tilbøyelige til å delta i det endelige oppfølgingsintervjuet, og mer sannsynlig å ha manglende utfallsdata. Slike data er ujevnlig i den forstand at en analyse av tilgjengelige data alene vil Vanligvis er forutinntatt publisering bias og selektiv rapportering bias føre per definisjon til data som ikke mangler tilfeldig, og sletting og ekskluderinger av individer innenfor studier gjør ofte også. De viktigste alternativene for å håndtere manglende data er.1 bare å analysere tilgjengelige data dvs. å ignorere de manglende dataene.2 tilordne de manglende dataene med erstatningsverdier og behandle disse som om de ble observert, for eksempel siste observasjon fremført, noe som antok et antatt utfall slik som antatt at alle var dårlige resultater, imputing the mean, imputing basert på forutsagte verdier fra en regresjonsanalyse.3 imputing de manglende dataene og regnskap for det faktum at disse ble pålagt usikkerhet, f. eks. multiple imputation, enkle imputasjonsmetoder som punkt 2 med tilpasning til standardfeilen.4 ved hjelp av statistiske modeller for å tillate manglende data, noe som gjør antagelser om deres forhold til de tilgjengelige dataene. Opptak 1 kan være hensiktsmessig når data kan antas å mangle tilfeldig Valg 2 til 4 er forsøk på å adressere data mangler tilfeldigvis Alternativ 2 er praktisk i de fleste omstendigheter og er svært vanlig brukt i systematiske vurderinger. Det klarte imidlertid ikke å erkjenne usikkerhet i de estimerte verdiene og resultatene, vanligvis i konfidensintervaller som er for smale. Valg 3 og 4 vil kreve involvering av en kunnskapsrik statistiker. For generelle anbefalinger for å håndtere manglende data i Cochrane vurderinger er som følger. Når det er mulig, ta kontakt de opprinnelige etterforskerne for å be om manglende data. Ta eksplisitte antagelser om metoder som brukes til å takle manglende data, for eksempel at dataene antas å mangle tilfeldig, eller at manglende verdier antas å ha en bestemt verdi, for eksempel et dårlig resultat. Utfør følsomhetsanalyser for å vurdere hvor følsomme resultater er for fornuftige endringer i forutsetningene som er gjort, se kapittel 9, kapittel 9 7.Address den potensielle effekten av manglende data på funnene av granskingen i diskusjonsdelen. Multiple imputering i Stata Imputing. Dette er del fire av Multiple Imputation i Stata-serien For en liste over emner som dekkes av denne serien, se Introduksjon. Denne delen vil snakke deg gjennom detaljene i imputasjonsprosessen. Vær sikker på at du har lest minst den forrige delen, Opprettelse av impulering Modeller, slik at du har en følelse av hvilke problemer som kan påvirke gyldigheten av resultatene dine. Eksempeldata. For å illustrere prosessen, vil vi bruke et fabrikkdatasett i motsetning til de i e-eksempler, er dette datasettet designet for å ha noen likhet med ekte verden data. female binær. race kategorisk, tre values. urban binary. edu bestilt kategorisk, fire values. exp continuous. wage continuous. Missingness Hver verdi av alle variablene unntatt kvinnen har 10 sjanser til å bli savnet helt tilfeldig, men selvfølgelig i den virkelige verden vant vi ikke at det er MCAR på forhånd. Dermed vil vi sjekke om det er MCAR eller MAR MNAR ikke kan kontrolleres ved å se på observerte data ved hjelp av prosedyren som er angitt i Beslutte å Impute. unab numvars unab missvars urban-wage misstable sum, gen miss. foreach var lokal missvars lokale covars liste numvars - var display newline 3 logit manglende var på covars logit miss var covars foreach nvar av Lokale guvernører viser ny linje 3 av Nvar ved manglende varighet, ved savner. Se loggfilen for resultater. Vårt mål er å tilbakestille lønn på kjønn, rase, utdanningsnivå og erfaring. For å se de riktige svarene, åpne e gjør fil som lager datasettet og undersøke genkommandoen som definerer wageplete-koden for imputasjonsprosessen, finner du i følgende gjør-fil. Imputasjonsprosessen skaper mye utdata Vi vil sette høydepunkter på denne siden, men en komplett loggfilen med tilhørende grafer finner du her. Hver del av denne artikkelen vil ha lenker til den aktuelle delen av loggen. Klikk tilbake i nettleseren for å gå tilbake til denne siden. Det første trinnet i å bruke mi-kommandoer er å angi dine data Dette ligner noe på svyset tsset eller xtset Kommandoen mi sett forteller Stata hvordan den skal lagre de ekstra imputasjonene du vil lage. Vi foreslår at du bruker bredformatet, da det er litt raskere. På den annen side bruker mlong litt mindre minne. For å ha Stata bruker den brede datastrukturen, type. For å få Stata bruk den marginal lange datastrukturen, type. Den brede vs lange terminologien er lånt fra omforming og strukturene er likte. De er imidlertid ikke ekvivalente, og du vil d bruk aldri omforming for å endre datastrukturen som brukes av mi I stedet må du skrive mi konvertere bred eller mi konvertere mlong legge til, fjern om dataene ikke er lagret siden sist endring. Mesteparten av tiden trenger du ikke å bekymre deg for hvordan imputasjoner lagres mi kommandoene finne ut automatisk hvordan du bruker hva du gjør for hver imputation Men hvis du trenger å manipulere dataene på en måte som jeg ikke kan gjøre for deg, må du lære om detaljene i strukturen du er bruker Du må også være veldig, veldig forsiktig Hvis du er interessert i slike ting, inkludert de sjelden brukte flong - og flongsepformatene, kjør denne filen og les kommentarene den inneholder mens du undersøker databrowseren for å se hvordan dataene ser ut i hver form. Registering Variables. The mi kommandoer gjenkjenner tre typer variabler. Imputerte variabler er variabler som mi skal pålegge eller har imputed. Regular variabler er variabler som mi ikke skal pålegge, enten ved valg eller fordi de ikke mangler noen verdier es. Passive variabler er variabler som er helt bestemt av andre variabler. For eksempel er logglønnen bestemt av lønn, eller en indikator for fedme kan bestemmes av en funksjon av vekt og høyde. Interaksjonsbetingelser er også passive variabler, men om du bruker Stata s samspill syntaks du ikke har til å erklære dem som sådan Passive variabler er ofte problematiske Eksemplene på transformasjoner ikke-linearitet og interaksjoner viser hvordan bruk av dem uhensiktsmessig kan føre til partisk estimater. Hvis en passiv variabel bestemmes av vanlige variabler, så kan den Behandles som en regulær variabel, siden ingen imputering er nødvendig. Passive variabler må bare behandles som slike hvis de er avhengige av estimerte variabler. Registrering av en variabel forteller Stata hvilken type variabel det er. Imputerede variabler må alltid registreres. hvor varlist bør erstattes av den faktiske listen over variabler som skal tilskrives. Regelvariabler må ofte ikke registreres, men det er en god ide. mi registrere vanlige varlist. Passive variabler må registreres. mi registrere passiv varlist. Men passive variabler blir ofte opprettet etter imputing Gjør det med mi passiv og de vil bli registrert som passiv automatisk. I vårt eksempel data, alle variablene unntatt kvinnen må tilskrives Den aktuelle mi-registerkommandoen er. mi registrere imputed race-lønn. Vær oppmerksom på at du ikke kan bruke som varlisten din selv om du må påregne alle variablene dine, fordi det vil inkludere systemvariablene som er lagt til for å holde oversikt over imputasjonsstrukturen. Registrering av kvinner som vanlig er valgfritt, men en god ide registrer vanlig kvinne. Kontroller imputasjonsmodellen. Basert på typene av variablene, er de åpenbare imputasjonsmetodene. race kategoriske, tre verdier mlogit. urban binær logit. edu bestilt kategorisk, fire verdier ologit. exp kontinuerlig regress. wage kontinuerlig regress. kvinnelige trenger ikke å bli tilskrevet, men skal inkluderes i imputasjonsmodellene både fordi den er i analysemodellen og fordi det er sannsynlig å være relevant. Før vi fortsetter å antyde, vil vi sjekke hver imputasjonsmodell. Kjør alltid hver av dine imputasjonsmodeller individuelt, utenfor den sammenkalt sammenhengende konteksten, for å se om de konvergerer og så langt det er mulig, bekrefte at de er spesifisert korrekt. Kode for å kjøre hver av disse modellene er. mlogit r Ace Exp Lønn Logit Urban Exp Lage Ologit Edu Exp Lønn regress Exp Lønn regress lønn Exp. Note at når kategoriske variabler bestilt eller ikke vises som covariates jeg ekspanderer dem i sett med indikatorvariabler. Som vi ll se senere, utgangen av mi anse Kombinert kommando inneholder kommandoene for de enkelte modellene den kjører. Derfor er en nyttig snarvei, spesielt hvis du har mange variabler å antyde, å sette opp din mi imput-keddet kommando med dryrun-alternativet for å hindre det fra å gjøre noen faktiske imputing, løp det, og kopier deretter kommandoene fra utgangen til din fil for testing. Konvergensproblemer. Den første tingen å merke seg er at alle disse modellene kjøres vellykket Komplekse modeller som mlogit kan mislykkes i å konvergere hvis du har stort antall kategoriske variabler, fordi det ofte fører til småcellestørrelser Hvis du vil kutte ned årsaken til problemet, fjerner du de fleste variablene, sørg for at modellen fungerer med det som er igjen, og legg deretter til variabler tilbake en om gangen eller i små grupper til det slutter å fungere Med noen eksperimenter bør du kunne identifisere problemvariabelen eller variabombombinasjonen. På det tidspunktet må du avgjøre om du kan kombinere kategorier eller slippe variabler eller gjøre andre endringer for å skape en brukbar modell. Perfekt Prediksjon. Perfekt prediksjon er et annet problem å merke. Imputasjonsprosessen kan ikke bare slippe de perfekt forutsagte observasjonene, slik logit kan Du kan slippe dem før imputing, men det synes å beseire formålet med flere imputation. Alternativet er å legge til forstørrelsen eller bare aug Alternativ til de berørte metodene Dette forteller mi impute chained å bruke den utvidede regresjonsmetoden, som legger til falske observasjoner med svært lave vekter, slik at de har en ubetydelig effekt på resultatene, men forhindrer perfekt prediksjon. For detaljer, se avsnittet Problemet med perfekt prediksjon under imputering av kategoriske data i Stata MI-dokumentasjonen. Sjekk for feilspesifikasjon. Du sh Du må også prøve å vurdere om modellene er riktig angitt. En fullstendig diskusjon om hvordan man skal avgjøre om en regresjonsmodell er spesifisert riktig eller ikke, ligger langt utenfor omfanget av denne artikkelen, men bruk det verktøyet du finner passende. Her er noen eksempler. Residual vs Fitted Value Plots. For kontinuerlige variabler, kan residual vs monterte verdi plottene enkelt gjort med rvfplot være nyttig flere av eksemplene bruker dem til å oppdage problemer. Vurder plottet for experience. regress exp lage rvfplot. Legg merke til hvordan en rekke punkter er gruppert langs en linjen nederst til venstre, og ingen punkter er under den. Dette reflekterer begrensningen at opplevelsen ikke kan være mindre enn null, noe som betyr at de monterte verdiene alltid må være større enn eller lik de resterende, eller alternativt at residuene må være større enn eller lik negativet til de monterte verdiene Hvis grafen hadde samme skala på begge akser, ville begrensningslinjen være en 45 graders linje Hvis alle punktene var under en si milar linje i stedet for det, ville dette fortelle deg at det var en øvre grense på variabelen i stedet for en nedre grense. Y-avgrensningen av begrensningslinjen forteller deg grensen i begge tilfeller. Du kan også ha både en nedre grense og en øvre grense, sette alle poengene i et bånd mellom dem. Den åpenbare modellen, regressen er upassende for erfaring fordi det vant t bruke denne begrensningen. Det er også uegnet for lønn av samme grunn. Alternativer inkluderer truncreg, ll 0 og pmm vi skal bruke pmm. Adding Interactions. In dette eksemplet virker det trolig at forholdet mellom variabler kan variere mellom rase-, kjønns - og urbane landegrupper. En måte å kontrollere for feilgodkjenning er å legge til interaksjonsvilkår for modellene og se om de viser seg Vær viktig For eksempel vil vi sammenligne den åpenbare modellen. regress exp wage. with en som inkluderer interactions. regress exp. We ll kjøre lignende sammenligninger for modellene av de andre variablene Dette skaper en stor del av utdata, så se loggfilen for resultater. Interaksjoner mellom kvinnelige og andre variabler er signifikante i modellene for utsparing edu og urbane. Det er noen få signifikante vekselvirkninger mellom rase eller urbane og andre variabler, men ikke så mange, og husk at Med disse mange koeffisientene forventer vi at noen falske positiver bruker et signifikansnivå på 05 Vi vil dermed pålegge menn og kvinner separat Dette er et spesielt godt alternativ for dette datasettet fordi kvinner aldri mangler Hvis det var, må vi slippe de observasjoner som mangler hunn fordi de ikke kunne plasseres i en gruppe eller den andre. I imputeringskommandoen betyr dette at man legger til det kvinnelige alternativet Ved testing av modeller betyr det at man starter kommandoene med det kvinnelige prefikset og fjerner kvinnene fra lister over Kovariater De forbedrede imputasjonsmodellene er thus. bysort kvinneregistrering av kvinnelig logit urbane eksponering av kvinnelig mlogit rasexponering av kvinnelig regningslønn ved kvinnelig ologit edu ex p wage. pmm selv kan ikke kjøres utenfor imputasjonskonteksten, men siden den er basert på regresjon, kan du bruke vanlig regresjon for å teste den. Disse modellene skal testes igjen, men vi vil slippe den prosessen. Den grunnleggende syntaksen for mi impute chained is. mi imput chained method1 varlist1 method2 varlist2 regvars. Each metode spesifiserer metoden som skal brukes til å imputere følgende varlist Mulighetene for metode er regress pmm truncreg intreg logit ologit mlogit poisson og nbreg regvars er en liste over vanlige variabler som skal brukes som kovariater i imputasjonsmodellene, men ikke beregnet på det, kan ikke være noen. De grunnleggende alternativene er. add N rseed R savetrace-sporfil erstatter. N er antall imputasjoner som skal legges til datasettet R er frøet som skal brukes til tilfeldig tall generator hvis du ikke angir dette vil du få litt forskjellige imputasjoner hver gang kommandoen kjøres Tracefile er et datasett der mi imput chained vil lagre informasjon om imputation prosessen Vi ll oss e denne datasettet for å se etter konvergens. Opptak som er relevante for en bestemt metode, går med metoden, inne i parentesene, men følger et komma, f. eks. mlogit, aug. Alternativer som er relevante for imputasjonsprosessen som helhet som av kvinnen, går i enden , etter komma. For vårt eksempel, vil kommandoen være. Jeg må koble til kjedelig logit urban mlogit race ologit edu pmm exp loon, legg til 5 rseed 4409 av kvinnelig. Merk at dette ikke inkluderer en savetrace-opsjon. savetrace kan ikke brukes samtidig, antagelig fordi det ville kreve en sporfil for hver gruppe. Stata er klar over dette problemet, og vi håper dette vil bli endret snart. I denne artikkelen vil vi fjerne alternativet når det kommer tid for å illustrere bruken av sporfilen Hvis dette problemet kommer opp i undersøkelsen, snakk med oss ​​om arbeidsomringene. Å velge antall innskrivninger. Det er noen uenighet blant myndighetene om hvor mange påvirkninger som er tilstrekkelig. Noen sier 3-10 i nesten Alle forhold, Stata-dokumentasjonen antyder minst 20, mens White, Royston og Wood hevder at antall imputasjoner bør være omtrent lik prosentandelen tilfeller med manglende verdier. Vi er imidlertid ikke klar over noe argument om at antallet øker imputasjoner forårsaker alltid problemer bare at marginale fordelene med en annen imputasjon nærmer seg asymptotisk null. Økning av antall imputasjoner i analysen tar i hovedsak ikke noe arbeid fra din side Bare endre tallet i tilleggsalternativet til noe større På den annen side kan det være mye arbeid for datamaskinen flere imputation har introdusert mange forskere i jobben verden som tar timer eller dager å løpe Du kan generelt anta at mengden tid som kreves vil være proporsjonal med antall imputasjoner brukt f. eks hvis en fil tar to timer å løpe med fem imputasjoner, vil det nok ta omtrent fire timer å løpe med ti imputasjoner Så her er vårt forslag. Start med fem im legger den lave enden av det som er bredt betraktet som legitimt. Arbeid på ditt forskningsprosjekt til du er rimelig sikker på at du har analysen i sin endelige form. Vær sikker på å gjøre alt med gjør filer slik at du kan kjøre det igjen på vilje. Merk hvor lenge prosessen tar fra imputering til endelig analyse. Tenk på hvor mye tid du har tilgjengelig og avgjøre hvor mange imputasjoner du har råd til å løpe, med tommelfingerregelen som kreves tid er proporsjonal med antall imputasjoner. Hvis mulig, gjør antall imputasjoner omtrent lik prosentandelen tilfeller med manglende data Et høyt estimat av hva som kreves Tillat tid å gjenopprette hvis ting skal gå galt, slik de vanligvis gjør. Øk antall påvirkninger i din fil og start den. Gjør noe annet mens du Dokefilen løper, som å skrive papiret. Legg til imputasjoner bør ikke endre resultatene dine vesentlig og i det usannsynlige tilfelle at de gjør det, betrakt deg selv heldig å ha funnet ut det før du publiserer. Speil G opp Imputation Process. Multiple imputation har introdusert mange forskere i jobben verden som tar timer, dager eller til og med uker å løpe Vanligvis er det ikke verdt å bruke tid til å gjøre Stata kode løpe raskere, men flere imputation kan være et unntak . Bruk den raskeste datamaskinen tilgjengelig for deg For SSCC-medlemmer som betyr at du lærer å kjøre jobber på Linstat, er SSCCs Linux-databaser Linux ikke så vanskelig som du kanskje tror. Bruke Linstat har instruksjoner. Multiple imputasjon innebærer mer lesing og skriving til disk enn de fleste Stata-kommandoer Noen ganger inkluderer dette midlertidige filer i den nåværende arbeidsboken. Bruk den raskeste diskplassen som er tilgjengelig for deg, både for datasettet og for arbeidskatalogen. Generelt vil lokal diskplass være raskere enn nettverksdiskplass, og på Linstat ramdisk en katalog som faktisk er lagret i RAM, vil være raskere enn lokal diskplass. På den annen side vil du ikke permanent lagre datasett hvor som helst, men netwo rk diskplass Så vurder å ha din fil gjøre noe som følger. Windows Winstat eller din egen PC. Dette gjelder når du også bruker imputerte data Hvis datasettet ditt er stort nok til å fungere med det etter at imputasjonen er treg, prosedyren kan hjelpe. Kontroller for konvergens. MICE er en iterativ prosess I hver iterasjon estimerer mi imput chained først imputasjonsmodellen ved å bruke både de observerte dataene og de imputerte dataene fra den tidligere iterasjonen. Deretter trekkes nye estimerte verdier fra de resulterende fordelingene Merknad som følge av at hver iterasjon har noen autokorrelasjon med den forrige imputasjonen. Den første iterasjonen må være et spesielt tilfelle i det. mi imput chained første estimerer imputasjonsmodellen for variabelen med de færreste manglende verdiene basert bare på de observerte dataene og tegner estimerte verdier for den variabelen Den estimerer deretter modellen for variabelen med de nesteste manglende verdiene, ved å bruke både de observerte verdiene og de tilordnede verdiene o f den første variabelen, og fortsetter på samme måte for resten av variablene. Derfor er den første iterasjonen ofte atypisk, og fordi iterasjoner er korrelerte, kan det også gjøre etterfølgende iterasjoner atypiske. For å unngå dette går mi imput chained som standard gjennom ti iterasjoner for hvert estimert datasett du forespørsler, bare lagrer resultatene av den tiende iterasjonen De første ni iterasjonene kalles innbrenningsperioden Normalt er dette god tid for effekten av den første iterasjonen å bli ubetydelig og for prosessen å konvergere til en Stasjonær tilstand Du bør imidlertid sjekke om konvergens og øke antall iterasjoner hvis det er nødvendig for å sikre at det bruker burnin-alternativet. For å gjøre det, undersøk tracefilen som er lagret av mi impute chained. Den inneholder gjennomsnittlig og standardavvik for hver tilordnet variabel i hver iterasjon Disse vil variere tilfeldig, men de bør ikke vise noen trend En enkel måte å sjekke er med tsline, men det krever omforming av dataene først. Vi foretrekker imputation modell bruker av så det kan ikke lagre en sporfil Således vil vi fjerne for øyeblikket Vi vil også øke burnin-opsjonen til 100, så det er lettere å se hva et stabilt spor ser ut som vi vil da bruke omforme og tsline for å sjekke om konvergens. preserve mi imput chained logit urban mlogit rase ologit edu pmm exp loon female, legg til 5 rseed 88 savetrace ekstrace, erstatt burnin 100 bruk ekstrace, erstatte reshape wide mean sd, jeg iter jm tsset iter tsline expmean, tittel Mean of Imputed Values ​​of Erfaringsnotat Hver linje er for en imputasjonslegende fra grafeksport erstatter tsline expsd, tittel Standardavvik av påførte verdier av erfaringsnotat Hver linje er for en imputasjonslegende fra grafeksport erstatter gjenoppretting. De resulterende grafene viser ikke noen åpenbare problemer. Hvis du ser tegn på at prosessen kanskje ikke har konvergert etter standard ti iterasjoner, øker antall iterasjoner som utføres før lagring av imputerte verdier med burnin-alternativet Hvis konvergens aldri er achi eved dette indikerer et problem med imputasjonsmodellen. Kontrollere de påførte verdiene. Etter imputering bør du sjekke om de påregnede dataene ligner de observerte dataene. Dessverre er det ingen formell test for å bestemme hva som er nær nok. Selvfølgelig, hvis dataene er MAR men ikke MCAR, bør de imputerte dataene være systematisk forskjellig fra de observerte dataene. Ironisk nok, jo færre manglende verdier du må pålegge, jo mer variasjon vil du se mellom de estimerte dataene og de observerte dataene og mellom imputations. For binære og kategoriske variabler, sammenligne frekvenstabeller For kontinuerlige variabler er sammenligning av midler og standardavvik et godt utgangspunkt, men du bør også se på den generelle formen av fordelingen. For det foreslår vi kjerne tetthetsgrafer eller kanskje histogrammer. Se på hver imputasjon separat enn å slå sammen alle de imputerte verdiene, slik at du kan se om noen av dem gikk galt. mi xeq-prefikset forteller Stata å bruke den påfølgende kommandoen til hver im putering individuelt Det gjelder også for de opprinnelige dataene, den zeroth-imputasjon Thus. mi xeq tabellen race. will gi deg seks frekvensbord en for de opprinnelige dataene, og en for hver av de fem imputasjonene. Vi vil imidlertid sammenligne de observerte dataene til bare de imputerte dataene, ikke hele datasettet. Dette krever at du legger til en if-betingelse for tabulatorkommandoene for imputasjonene, men ikke de observerte dataene. Legg til et nummer eller numlist for å ha mi xeq handle på bestemte imputations. mi xeq 0 tabell race mi xeq 1 5 tabellen løp hvis missrace. This skaper frekvens tabeller for de observerte verdiene av rase og deretter de tilordnede verdiene i alle fem imputations. If du har et betydelig antall variabler å undersøke kan du enkelt loop over them. foreach var av varlist urban rase edu mi xeq 0 tab var mi xeq 1 5 tab var hvis savner var. For resultater se loggfilen. Oppsummeringsstatistikk for kontinuerlige variabler følger samme prosess, men å opprette kjernedensitetsgrafer legger til en komplikasjon du trenger for å enten lagre grafer eller gi deg en sjanse til å se på dem mi xeq kan utføre flere kommandoer for hver imputation bare plasser dem alle i en linje med en semikolon på slutten av hver Dette vil ikke fungere hvis du har endret den generelle kommandoen Avgrensning til en semikolon Søvnkommandoen forteller Stata å sette pause i en bestemt periode, målt i millisekunder. mi xeq 0 kdensitetslønnsløft 1000 mi xeq 1 5 kdensitetslønn hvis savner var søvn 1000.Gjenvinning, dette kan alle bli automatisert. varlist lønn eks xeq 0 sum var mi xeq 1 5 sum var hvis savner var mi xeq 0 kdensity var søvn 1000 mi xeq 1 5 kdensity var hvis savner var søvn 1000. Lag grafene viser seg å være litt vanskeligere fordi du trenger å gi grafen fra hver imputasjon et annet filnavn. Dessverre kan du ikke få tilgang til imputasjonsnummeret i mi xeq. Du kan imidlertid gjøre en forvalues-krets over imputasjonsnumre, og har mi xeq handle på hver av dem. Forval 1 1 5 mi xeq jeg kdensity exp hvis missexp graph eksport erstatte. Integ rangering dette med den forrige versjonen gir. forever var av varelønn lønn mi miqeq 0 sum var mi xeq 1 5 sum var hvis savner var mi xeq 0 kdensity var graf eksport erstatte forval jeg 1 5 mi xeq jeg kdensity var hvis du ikke var vargra graf eksport erstatt. For resultater, se loggfilen. Det er plagsomt at i alle pålegg er gjennomsnittet av de påløpte lønnsverdiene høyere enn gjennomsnittet av de observerte lønnsverdiene, og gjennomsnittet av de estimerte verdiene for exp er lavere enn gjennomsnittet av de observerte verdiene av exp Vi fant ikke bevis på at dataene er MAR men ikke MCAR, slik at vi forventer at midlene til de imputerte dataene blir klynget rundt middelene til de observerte dataene. Det foreligger ingen formell test for å fortelle oss definitivt om Dette er et problem eller ikke. Det skal imidlertid hevde mistanker, og hvis de endelige resultatene med disse imputerte dataene er forskjellige fra resultatene av komplett saksanalyse, reiser det spørsmålet om forskjellen skyldes problemer med imputasjonsmodellen. Revidert 8 23 2012.A ny imputasjonsmetode for ufullstendige binære data. Munevver Mine Subasi a. Ersoy Subasi b. Martin Anthony C. Peter L Hammer 1.a Institutt for matematiske vitenskap, Florida Institute of Technology, 150 W University Blvd Melbourne, FL 32901, USA. b RUTCOR , Rutgers Center for Operations Research, 640 Bartholomew Road, Piscataway, NJ 08854, USA. c Institutt for matematikk, London School of Economics and Political Sciences, Houghton Street, London WC2A 2AE, UK. Visstilt 17. oktober 2009, revidert 28. august 2010, Godkjent 31. januar 2011 Tilgjengelig online 21. mars 2011.I dataanalyseproblemer hvor dataene er representert av vektorer av reelle tall, er det ofte tilfelle at noen av datapunktene vil ha manglende verdier, noe som betyr at en eller flere av de Oppføringer av vektoren som beskriver datapunktet observeres ikke I dette papiret foreslår vi en ny tilnærming til imputering av manglende binære verdier. Teknikken vi introduserer benytter et likhetsmål innført av Anthony og Hammer 20 06 1 Vi sammenligner eksperimentelt med ytelsen til vår teknikk med de som er basert på det vanlige Hamming avstandsmålet og flere imputation. Boolean likhetstiltak.1 Innledning. I praktiske maskinlæring eller dataanalyseproblemer hvor dataene som skal analyseres består av vektorer av ekte tall er det ofte slik at noen av datapunktene vil ha manglende verdier, noe som betyr at en eller flere av oppføringene av vektoren som beskriver datapunktet ikke er kjent. Det er naturlig å prøve å fylle ut eller pålegge disse mangler verdier slik at en enn har komplette data til å fungere fra Dette kan være nødvendig for eksempel slik at dataene kan brukes til å lære av å bruke statistiske eller maskinlæringsteknikker Dette er et klassisk statistisk og maskinlæringsproblem, og mange teknikker har vært ansatt . Siden i ekte applikasjoner mangler data en plage heller enn det primære fokuset, kan en imputasjonsmetode med gode egenskaper være å foretrekke for en som er komplisert Enkelte tilnærminger til å håndtere manglende data ignorerer eller sletter bare punkter som er ufullstendige. Klassiske tilnærminger av denne typen er listevis sletning LD og parvis sletting PD På grunn av deres enkelhet er de mye brukt se , for eksempel 15 og pleier å være standard for de fleste statistiske pakker. Bruken av disse teknikkene kan imidlertid føre til et stort tap av observasjoner, noe som kan resultere i datasett som er for små hvis brøkdelen av manglende verdier er høy og spesielt hvis det opprinnelige datasettet er lite. En av de mest utfordrende beslutningene som konfronterer forskere, velger den mest hensiktsmessige metoden for å håndtere manglende data under analysen. Lite og Rubin 13 antyder at naive eller uprinsippet imputasjonsmetoder kan skape flere problemer enn de løser The mest vanlige data imputasjon teknikker er gjennomsnittlig imputation også referert til som ubetinget gjennomsnittlig imputation, regresjon imputation RI også referert til som betinget gjennomsnittlig imputasjon, hot deck imputation HDI og multiple imputation MI Vi bemerker at gjennomsnittlig imputering og lignende tilnærminger ikke er riktige i betydningen av Rubin 16 og derfor ikke anbefales. I de fleste tilfeller er enkle teknikker for å håndtere manglende data som komplette saksanalysemetoder LD og PD, totalt MI og den manglende indikatormetoden produserer partisk resultat som dokumentert i 5 12 16 18 og 21 En mer sofistikert teknikk MI gir mye bedre resultater 5 12 16 18 og 21.MI 16 er en statistisk teknikk hvor hver manglende verdi er erstattet av flere kk-verdier, og produserer kk ferdige datasett for analyse. Forskjellene mellom disse datasettene gjenspeiler usikkerheten om de manglende verdiene. Hver estimert datasett analyseres ved standard full-data prosedyrer som ignorere skillet mellom reelle og imputerte verdier Kk-resultatene blir så kombinert på en slik måte at variasjonen på grunn av imputasjon kan innarbeides. Resultatene av disse kombinerte analysene gir ikke bare objektive estimatorer for parametere, men inneholder tilstrekkelig usikkerhet på grunn av manglende data, dvs. produserer gyldige estimater av avvikene av disse parameterestimatene. Rubin 16 ga en omfattende behandling av MI og adresserte potensielle bruksområder av technique primarily for large public-use data files from sample surveys and censuses The technique is available in standard statistical packages such as SAS, Stata and S-Plus It has become increasingly attractive for researchers in the biomedical, behavioral, and social sciences where missing data is a common problem These methods are documented in the book by Schafer 18 on incomplete multivariate data. In fully parametric models, maximum-likelihood estimates can often be calculated directly from the incomplete data by specialized numerical methods, such as the Expectation Maximization EM algorithm 4 and 14 The EM algorithm is an iterative procedure in which it uses ot her variables to impute a value Expectation , then checks whether that is the value most likely Maximization If not, it re-imputes a more likely value This goes on until it reaches the most likely value Those procedures may be somewhat more efficient than MI because they involve no simulation EM Imputation is available in SAS, Stata, R, and SPSS Missing Values Analysis module. Imputation techniques have become easier to perform with the advent of several software packages However, imputation of missing binary data is still an important practical problem Ibrahim 7 showed that, under the assumption that the missing data are missing at random, the E step of the EM algorithm for any generalized linear model can be expressed as a weighted complete-data log-likelihood when the unobserved covariates are assumed to come from a discrete distribution with finite range Ibrahim s method of weights 7 8 9 11 10 and 6 can be used as a principled approach for imputation of binary data. In this paper, we propose a new approach to the imputation of missing binary values The technique we introduce employs a similarity measure introduced in 1 The Boolean similarity measure has already proven to be of some application in classification problems 19 Here, we use it to help indicate whether a missing value should be 0 or 1, and we compare experimentally the performance of our technique with ones based on the usual Hamming distance measure and MI technique using SAS 17.The framework used here requires data to be represented by binary vectors However, in many applications, the raw data that we work with in a particular situation might be more naturally encoded as a real-valued vector In such cases, the data may be transformed into binary data through a process known as binarization see 2 for example The transformed data-set may then be simplified or cleaned in a variety of ways, by the removal of repeated points, for instance, and the deletion of attributes or coordinates found to be statistic ally insignificant in determining the classification. Section 2 provides details of the Boolean similarity measure that is at the core of our technique and describes the imputation method that derives from this measure Section 3 describes the experiments we performed in order to test this method, and the results are reported in Section 4.IMPUTEITEMS Stata module to impute missing data of binary items. When requesting a correction, please mention this item s handle RePEc boc bocode s456807 See general information about how to correct material in RePEc. For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact Christopher F Baum. If you have authored this item and are not yet registered with RePEc, we encourage you to do it here This allows to link your profile to this item It also allows you to accept potential citations to this item that we are uncertain about. If references are entirely missing, you can add them using this form. If the full references list an item that is present in RePEc, but the system did not link to it, you can help with this form. If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item If you are a registered author of this item, you may also want to check the citations tab in your profile, as there may be some citations waiting for confirmation. Please note that corrections may take a couple of weeks to filter through the various RePEc services. More services. Follow series, journals, authors more. New papers by email. Subscribe to new additions to RePEc. Author registration. Public profiles for Economics researchers. Various rankings of research in Economics related fields. Who was a student of whom, using RePEc. RePEc Biblio. Curated articles papers on various economics topics. Upload your paper to be listed on RePEc and IDEAS. Blog aggregator for economics research. Cases of plagiarism in Economics. Job Market Papers. RePEc working paper series dedicated to the job market. Fantasy League. Pretend you are at the helm of an economics department. Services from the StL Fed. Data, research, apps more from the St Louis Fed.22 Jun 2014, 14 34.Dear Statalist experts, I am currently handling a questionnaire-derived dataset with mostly categorical nominal and ordinal variables with some missing data MAR in them, where people haven t completed the questionnaire Due to the nature of the purpose of my final model predictive diagnostics , it is important that I have as complete a dataset as possible and hence, I am hoping to fill in the data points using multiple imputation via Stata I tried using MI chained but STATA keeps telling me that I have missing variables within my imputation variables but I thought this problem could be alleviated if I use chained equation i e the iterations should run in a chain loop simultaneously The syntax I ve used looked like the following. mi impute chained mlogit, include Q2 Q69e Q77 noimputed augment Q10, add 3 rseed 23549.but I keep getting these error messages. either r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values. convergence not achieved convergence not achieved mlogit failed to converge on observed data. As a result, the regression model used to predict the missing value cannot be created I really welcome any input at all in the matter Any insights that could possibly resolve the matter would be greatly appreciated Many thanks. Why are you using noimputed The help says the option is rarely used I would suggest starting nice and simple and then add complexity if you think you need it augment is a little esoteric too if you need it it is because you have perfect predictions, and if so that may be adding to your woes. Also, how much missing data do you have There may be limits to the miracles MI can do if there are huge amounts of MD in several variables. It may just be because I do not have enough experience with it, but I tend to be leery of MI in general It seems like the benefits are often trivial, or that the justification for using it may be in this case I might want to do some checks to see ho w similar the people who didn t complete are to the people who did complete on the parts that both completed.27 Jun 2014, 06 44.Dear Mr Williams and Mr Schechter. Many thanks for replying to my conundrum. The reason I am assuming the missingness as MAR is because we have carried out interviews on a random sample to find out reasons for missing data, to which evidence varied as to why questions were omitted for many it was a matter of accidental omission or there were no specific reason per say Where I do see your argument, I don t think my data is necessarily MNAR either. I know I should be wary of MI but at present, I ve been tasked to proceed with it Unfortunately, the participant-completed questionnaire had been a large one consisting of 100 variables where few missing datapoints had occurred for most of the participants Should I start the regression process now, through listwise deletion I would lose most of my data Hence, I would like as much as possible to impute and retain data The number of missing data varied from 0 9 to 10 across the variables Regarding the rigor of MI as a method, following successful MI, I have proposed a few checks to assess the validity of the imputed dataset in order to ensure that it is logical. I am really open to other options but I need to ensure I ve exhausted all avenues of MI first as been assigned As advised, I have since attempted the imputation model without the additional functions and missingness in the imputation variables is still a problem I think after long discussion with the team, for the time frame given we might need to forgo MI and proceed with the regression model as planned Any suggestions that could help solve the MI problem or any other statistical classification model that could handle missingness in categorical data with dichotomous dependent variables in healthcare research would still be greatly appreciated Meanwhile, I ll keep searching the web for a general idea of the literature Thank you again.27 Jun 2014, 07 21.Based on your description I wouldn t expect you to be having so much trouble, so, without having the data, it is hard to advise you To further simplify things, maybe you could try dichotomizing your mlogit variable and see if it will work then Or, if there are some categories with very sparse counts e g only 4 people gave a response of 7 then see if there are logical ways to combine and reduce the number of categories These are things you might want to do regardless of whether you are using mi or not.09 Jul 2014, 20 07.Hi Joey, The error r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values suggests that one of the independent variables you are using also has missing values itself You can use the option force to go ahead with the imputation and for the independent variable with missing data only complete cases will be used I hope this helps.

No comments:

Post a Comment