טיול בעקבות הנתונים

פורסם ב:

אז היום מצאתי את עצמי בעמוד הויקיפדיה של גוש דן. לא משהו יוצא דופן, סתם תהיתי בנוגע לנתוני האוכלוסיה. וככל שהתעמקתי, יותר דברים היו מבולבלים, ולא ברור לי כבר אשמת מי זה – ערבוב של טעויות עריכה, לינקים מתים, נתונים לא זמינים ואחרי כל זה, בסופו של דבר, בחירה לא ברורה של *איזה* נתונים להציג. אז בואו, אני אנסה להוליך אתכם בתהליך שאני עברתי היום אחר הצהריים, בתקווה שהוא יהיה מעניין גם לכם.

בעקבות טעות ההקלדה

ראשית, כך נראית טבלת נתוני האוכלוסייה בעמוד הויקיפדיה בעברית, בראשון למאי, 2020:

מה שהציק לי במבט הראשון הוא החלוקה האתנית של האוכלוסייה. כלומר יש לנו סה"כ, ויש נתון של "יהודים ואחרים" (לא ברור מה זה אחרים כאן), ואז נתון היהודים, מתוך הנתון הקודם, ואז ערבים, ספציפית, כנראה לא מתוך ה-"אחרים". אז בעצם אנחנו רואים את היהודים פעמיים, בשתי עמודות. מבלבל? כן. אז חיפשתי נתונים באתרים אחרים, לראות אם יש הבדל.

הגעתי די מהר לאתר בשם "המכלול", גם הוא מבוסס ויקי, המתאר את עצמו כ-"אנציקלופדיה שיתופית, יהודית ומהימנה בלשון נקייה ובאספקלריה תורנית", מה שזה לא אומר. ובעמוד הזה ראיתי מה שנראה, במבט ראשון, כהעתק של הטבלה מויקיפדיה:

אין באמת בעיה עם העתקה מויקיפדיה – זה חלק מתנאי השימוש של האתר – אבל משהו קפץ לי לעין, וזה שהנתון הסופי של סך האוכלוסייה שונה מהטבלה בויקיפדיה – הפרש של כמעט 350 אלף איש, וזאת למרות שהנתונים אמורים להגיע מאותו מקור (אותו דו"ח של הלשכה המרכזית לסטטיסטיקה), ורוב הנתונים בטבלה נראים זהים. כאן חשדתי. אבל הופתעתי לגלות שהתשובות יותר מבלבלות משחשבתי שיהיו.

דבר ראשון, הטבלה בויקיפדיה פשוט לא הגיונית:

אם סך האוכלוסייה מורכב מיהודים, ערבים ואחרים, אז הוא אמור להיות פשוט 408,200 + 17,900, כלומר 426,100 – המספר הרשום באתר המכלול. מאיפה הגיעו ה-75,009 הנוספים בת"א? ממש לא ברור. עוד יותר לא ברור למה הסה"כ כ"כ שונה. מכיוון ששאר העמודות לא השתנו, אמור להיות הבדל של 75,009 בסה"כ, לא של כמעט 350 אלף. (ואני מתעלם כאן מטעות ההקלדה בויקיפדיה שהשמיטה את הספרה 0 מסוף המספר, והורידה 90% מהאוכלוסייה בטעות)

מה שקרה כאן, לדעתי, הוא שמישהו בא לעדכן את ויקיפדיה עם נתונים חדשים יותר מאשר של 2014. אבל נעשתה עבודה חלקית – הוזנו נתונים עדכניים לסך התושבים בעיר ת"א, ונתונים עדכניים לסך גוש דן, אבל בלי להשלים את כל הנתונים, מה שהוביל לערבוב נתונים ממקורות שונים, בלי שום הגיון. אפשר לראות שהעדכונים האחרונים, מה-26 לאפריל 2020, עשו בדיוק את זה: שינו רק את שני התאים הללו בטבלה בלי להתחשב בשאר (ועוד טעו בהקלדה). אין מסתורין גדול, אבל עדיין נשארתי מוטרד לגבי החלוקה האתנית של הנתונים. אז החלטתי ללכת לדו"ח המקורי של הלמ"ס להבין. כאן החיים נהיו מסובכים עוד יותר.

בעקבות הנתונים

אז כמובן שהלינק שמופיע בהערות השוליים של הערך בויקיפדיה (וגם במכלול) כבר לא תקין ומוביל לעמוד שגיאה באתר הלמ"ס. חיפוש בגוגל אחר שם הקובץ מוביל לאותו לינק שבור, ולמגוון מאמרים, כתבות וספרים שציינו אותו במקורות, וכמובן שאתר הלמ"ס לא חשב לשמר את מבנה הכתובות שלו כחלק מאחריותו כגוף האמון על מידע ציבורי לאורך זמן (ועל הסוגיה הזו אפשר לכתוב פוסט נוסף, או ספר).

אז ניגשתי לעמוד הראשי של אתר למ"ס ואמרתי לעצמי שלא אמור להיות קשה למצוא את נתוני האוכלוסייה של גוש דן ב-2014, לא? חיפוש די פשוט. ואכן אפשר ללכת לעמוד של "מידע על פי מיקום גאוגרפי", לבחור את מטרופולין גוש דן, להבין שהמונח לא קיים באתר, לחפש ע"פ "תל אביב" במקום, למצוא את הגדרה "גלעין" שתואמת לטבלה בויקיפדיה, ושם לראות מפה יפה שמראה בדיוק מה גבולות הגזרה של האזור, לבחור ב-PDF של המפקד, ולקבל…
את זה:

כן, זה פשוט PDF שיוצא מתוך אקסל (גם גרסת האקסל שם זהה), שלא מכיל שום נתונים חוץ מהשם של הישוב והסמל שלו. אה, והלוגו של הלמ"ס.

אם מחפשים נתונים על תל אביב עצמה, כעיר (ולא כחלק ממטרופולין), אז אפשר למצוא נתונים, אם כי הם מעודכנים ל-2018 והמספר בהם לא תואם למספר שבויקיפדיה (שטוען שהוא מ-2020), אבל כן אפשר למצוא את החלוקה האתנית הלא ברורה גם שם – כלומר זו לא המצאה של עורכי ויקיפדיה, אלא של הלמ"ס עצמו, אם כי הניסוח שם מבהיר שגם הערבים הם חלק מהמכלול, ולא משהו חיצוני:

זה כמובן לא מסביר כמה דברים, כמו מה זה "אחרים" (מהגרי עבודה ופליטים? תושבי קבע?), למה הם לא מופיעים בעמודה משלהם אלא כלולים עם היהודים (מה ששם את הערבים כקטגוריה מופרדת ומובחנת, לעומת "לא ערבים", שממנה גוזרים את היהודים), ומה המטרה הסטטיסטית שזה מוצג ככה. כלומר, יש הפניה ל-"ועדת הישובים" בלמ"ס האחראית על המידע, אבל אין הסבר על ההיגיון שמאחוריו, לפחות שזמין למי שמעיין בנתונים.

אבל מעבר לזה, אני עדיין לא הצלחתי למצוא באתר הלמ"ס את המספרים שעודכנו בשבוע שעבר בויקיפדיה. לא במאגר הנתונים העירוני (שנותן לך את שנת 2019 כברירת מחדל לחיפושים, אבל יחזיר תמיד תוצאות ריקות כי המידע העדכני ביותר הוא מ-2018), ולא ברשימת הפרסומים העדכניים שבאתר. וכמובן שלא טרחו להוסיף מראה מקום לנתון הזה בויקיפדיה.

לסיכום, יצאתי מהחיפושים שלי עם תשובות לשאלות המקוריות, פחות או יותר, אבל עם יותר שאלות חדשות משהתחלתי. מי עדכן את עמוד הויקיפדיה בצורה כ"כ עקומה, ומאיפה הוא הביא את הנתונים? למה הלמ"ס בוחר בחלוקה כזו של האוכלוסייה ל-"ערבים" ו-"לא ערבים"? למה אתר הלמ"ס לא דואג להגן על קישורים רשמיים שהוא מפרסם בשביל שימשיכו לחיות לאורך זמן? לכל אלה אין לי תשובות עדיין.

ובואו לא נדבר על הגרסה בויקיפדיה באנגלית.


פורסם ב:

by