Logo da.boatexistence.com

Hvad er fejlene ved at tilregne manglende værdier med middelværdi?

Indholdsfortegnelse:

Hvad er fejlene ved at tilregne manglende værdier med middelværdi?
Hvad er fejlene ved at tilregne manglende værdier med middelværdi?

Video: Hvad er fejlene ved at tilregne manglende værdier med middelværdi?

Video: Hvad er fejlene ved at tilregne manglende værdier med middelværdi?
Video: How To... Replace Missing Values with Mean Imputation Method in R #77 2024, Kan
Anonim

Mean imputation forvrænger relationer mellem variable Men middelimputation forvrænger også multivariate relationer og påvirker statistikker såsom korrelation. Det følgende kald til PROC CORR beregner f.eks. korrelationen mellem variablen Orig_Height og variablerne Vægt og Alder.

Hvorfor er det en dårlig idé at bruge et middel til manglende data?

Mean reducerer en varians af dataene Når man går dybere ind i matematik, fører en mindre varians til det smallere konfidensinterval i sandsynlighedsfordelingen[3]. Dette fører ikke til andet end at introducere en bias til vores model.

Hvorfor er manglende værdier et problem?

Manglende data giver forskellige problemer. For det første reducerer fraværet af data statistisk styrke, hvilket refererer til sandsynligheden for, at testen vil afvise nulhypotesen, når den er falsk. For det andet kan de tabte data forårsage skævhed i estimeringen af parametre. For det tredje kan det reducere prøvernes repræsentativitet.

Hvorfor er dårlig tilskrivning dårlig?

Problem 1: Gennemsnitlig imputation bevarer ikke relationerne mellem variabler. Det er sandt, at imputering af middelværdien bevarer middelværdien af de observerede data. Så hvis data mangler helt tilfældigt, forbliver estimatet af middelværdien upartisk.

Skal du erstatte manglende data med middelværdien?

Outliers-datapunkter vil have en betydelig indvirkning på middelværdien, og derfor anbefales det, i sådanne tilfælde, ikke at bruge middelværdien til at erstatte de manglende værdier. Brug af middelværdier til at erstatte manglende værdier skaber muligvis ikke en god model og bliver derfor udelukket.

Anbefalede: