זקיפת ממוצעת מעוות קשרים בין משתנים אבל זקיפה ממוצעת מעוותת גם קשרים רב-משתנים ומשפיעה על סטטיסטיקות כגון מתאם. לדוגמה, הקריאה הבאה ל-PROC CORR מחשבת את המתאם בין המשתנה Orig_Height לבין המשתנים של Weight and Age.
למה שימוש באמצעי לנתונים חסרים הוא רעיון רע?
Mean מפחית שונות של הנתונים אם מעמיקים יותר למתמטיקה, שונות קטנה יותר מובילה לרווח סמך צר יותר בהתפלגות ההסתברות[3]. זה לא מוביל לשום דבר אחר מאשר הכנסת הטיה למודל שלנו.
למה יש בעיה עם ערכים חסרים?
נתונים חסרים מציגים בעיות שונות. ראשית, העדר נתונים מפחית כוח סטטיסטי, המתייחס להסתברות שהמבחן ידחה את השערת האפס כשהיא שקרית. שנית, הנתונים האבודים עלולים לגרום להטיה בהערכת הפרמטרים. שלישית, זה יכול להפחית את הייצוגיות של הדגימות.
למה זקיפה רעה?
בעיה מס' 1: ממוצע limputation אינו משמר את הקשרים בין משתנים. נכון, זקיפת הממוצע משמרת את הממוצע של הנתונים הנצפים. אז אם הנתונים חסרים לגמרי באקראי, אומדן הממוצע נשאר חסר פניות.
האם להחליף נתונים חסרים בממוצע?
לנקודות הנתונים החריגות תהיה השפעה משמעותית על הממוצע ולכן, במקרים כאלה, לא מומלץ להשתמש בממוצע להחלפת הערכים החסרים. שימוש בערכים ממוצעים להחלפת ערכים חסרים עשוי שלא ליצור מודל מצוין ולכן ייפסל.