Mar 08 2009

טעות לעולם וכו’

בפוסט הקודם שלי טעיתי באיות הביטוי “קיתונות של בוז” כ-“קיטונות” – טעות נפוצה למדי עקב העובדה שהמילה “קיטון”, נידחת ככל שתהיה, עדיין נפוצה ומוכרת יותר מאשר “קיתון”, ותודה לישראל על שתיקן אותי.

אז תהיתי באמת אם רק אני חטאתי כאן או שהטעות נפוצה. פניתי, מעשה חברי Language Log, לגוגל כמנוע מחקר ראשוני בנושא.

את הביטוי “קיתונות של בוז” (כביטוי תחום במרכאות) אפשר למצוא 1,340 פעם. את “קיטונות של בוז” – 1,550. על פניו, נראה שהטעות נפוצה יותר מהאמת. אבל אם נחדד את בדיקה לחיפוש שמכיל את “קיטונות של בוז” אבל לא את “קיתונות של בוז” – רק את הטעות – ירדנו ל-86 תוצאות בלבד. “קיתונות” בלי “קיטונות”, לעומת זאת – 154 תוצאות.

מה המשמעות? המשמעות הראשונית, המתבקשת, היא שיש כמעט פי 10 עמודי באינטרנט שדנים בטעות הזו מאשר שבעצם משתמשים במטבע הלשון. זה נראה לי קצת קיצוני. אפשרות נוספת היא שכל פעם שמישהו טעה, הוא מיד קיבל תיקון – בטוקבקים או תגובות – מה שהופך את החיפוש לחסר משמעות כמתודה מחקרית.

ומה עוד יותר סביר? שגוגל מעוותים כל כך את השאילתא שלי, מוציאים ממנה שורשים (stemming) ומלים נפוצות (stop words) שאין שום דרך לדעת מה באמת נפוץ יותר.

12 תגובות

12 תגובות לפוסט “טעות לעולם וכו’”

  1. אידוסינקרטיתNo Gravatarבתאריך 08 Mar 2009 בשעה 17:56

    מה עם להסתכל במבט כללי על מדגם מהתוצאות החיפוש? זה יכול לעזור להכריע בין ההסברים שהצעת.

  2. אבנר קשתןNo Gravatarבתאריך 08 Mar 2009 בשעה 18:44

    תכננתי לעשות את זה, אבל הייתי צריך לרוץ לשיעור. אולי אני אעשה את זה עכשיו. אולי איבדתי עניין. :)

  3. ישראלNo Gravatarבתאריך 08 Mar 2009 בשעה 18:54

    בדיוק עשיתי מחקר שדה מהיר כזה בשבוע שעבר…

    “גרביים ארוכים” – 266 תוצאות
    “גרביים ארוכות” – 1,240 תוצאות

    אבל לא הכל שחור:

    “מכנסיים ארוכים” – 14,400 תוצאות
    “מכנסיים ארוכות” –  1,820 תוצאות

    בכלל, נראה לי שבעניין הגרביים זה מאבק אבוד. חוץ מזה שמאיר שלו כנראה צודק ותוך דור-שניים יהיה פיצול לעברית ספרותית ועברית מדוברת.

  4. אבנר קשתןNo Gravatarבתאריך 08 Mar 2009 בשעה 18:57

    זו אפשרות אחת. אפשרות אחרת – וסבירה יותר, לדעתי – היא שהעברית הספרותית תשתנה בהתאם לעברית המדוברת, והעברית הספרותית יותר של ימינו תהפוך לארכאית יותר. 

  5. אלעד-ווNo Gravatarבתאריך 08 Mar 2009 בשעה 21:22

    ולזה קוראים מחקר מדעי משובח — כשמודים שמהנתונים לא ניתן להגיע לאף מסקנה ברורה כי הם רועשים מדי.

  6. יפתחNo Gravatarבתאריך 08 Mar 2009 בשעה 22:04

    לצערי אין לי ידע פורמלי בבלשנות ואני לא מכיר תהליכים של היווצרות שפה מדוברת. עם זאת יש לי היכרות (מוגבלת) עם ערבית שמתאפיינת בחלוקה בין שפה ספרותית לבין שפה מדוברת.
    ואני יכול לומר שהשימוש של הערבים בשפה המדוברת בשום פנים ואופן לא בא על במקום שליטתם בשפה המדוברת. הערבית המדוברת, כשמה כן היא, לא עולה כלל על הכתב (אם אתה או את כותבים ערבית מדוברת זה אומר שאתם יהודים מישראל, ככל הנראה חיילים בשירות חיל המודיעין). ערבית שמופיעה בספרים, בעיתונים, בנאומים, במסגדים, בטלוויזיה וברדיו (למעט תכניות שמביאות את הרחוב או אמורות לשקף אותו) היא ערבית ספרותית. בן אנוש ערבי מבין את הערבית הזו והוא יודע להשתמש בה.
    עוד משהו: גם בערבית שמות עצם ומספרים מחולקים לזכר ולנקבה (למה, בעצם, שנייחס מין לכדור או לריבה?). ואני יכול לומר בוודאות שאחרון הבורים והערסים ששמעתי במהלך השנים לא החליף בערבית בין זכר ונקבה.
    ודבר אחרון: אבנר, אצל ערבים גם לא הייתה נופלת טעות כמו זו שלך. ההבדל בהגייה בין ת’ ל-ט’ הוא עצום.
    אז איך מאייתים בעברית את השם Buster Keaton ?

  7. אבנר קשתןNo Gravatarבתאריך 08 Mar 2009 בשעה 22:29

    יפתח: אני באמת לא מבין מספיק בהיסטוריה של השפה הערבית. האם הערבית הספרותית משותפת לניבים שונים בערבית, בעוד המדוברת שונה מאזור לאזור? זה ההסבר האינטואיטיבי שעלה לי בראש להתפתחות של שני המשלבים השונים הללו. אם זה אכן שורש המצב, אני לא רואה מצב שזה יקרה בעברית בזמן הקרוב. 

    מצד שני, אני גם לא יודע על הפרדת משלב כזו באנגלית או ספרדית, שתי שפות שמדוברות בפזורות נרחבות אפילו יותר.
  8. יפתחNo Gravatarבתאריך 08 Mar 2009 בשעה 23:13

    הערבית המדוברת אכן משתנה בהתאם למיקום הגיאוגרפי. בעוד שיש ערבית ספרותית אחת, שרוב הערבים יהגו אותה באותה צורה (המצרים יתעקשו להגות גם בספרות את האות ג’ימל כגימל), יש מספר להגים שונים בשפה המדוברת, כאשר כל להג מאפיין אזור גיאוגרפי. ההבדלים בלהגים באים לידי ביטוי בניגון (נניח, בעיני הניגון המצרי הוא מתנגן והיפראקטיבי, הניגון הלבנוני והסורי הוא ניגון מסטולי ואילו הניגון הלובי או העיראקי נשמע כמו שפה של זקנה בלי שיניים. בנוסף לניגון, יש הבדלי הגייה. מצרים, כאמור, הוגים ג’ימ”ל כגימ”ל. קו”ף, היא מסתבר עיצור בעייתי במיוחד. לבנונים ומצריםיהגו אותה כמו אל”ף(!). עראקים וירדנים יהגו אותה כמו גימ”ל. כך, הביטוי “מא תקלקש” (ma tiklaksh), שפירושו “אל תדאג” ייהגה על ידי חלק מהערבים כפי שהוא, על ידי האחרים “מא תאלאש” (אל תנסו את זה בבית) ואצל אחרים “מא תגלגש”.
    וגם יש הבדל במלים עצמן, פה ושם. כשפלסטיני ישאל אותך מה שלומך הוא ישאל “כיפכ?”. הסורי ישאל “שלונכ?”. העראקי ישתמש באותן מילים אבל יהגה אותן אחרת: “שלונצ’?” וצ’יפצ’?” (כמו ברומנית). מצרי ישאל “אזאיכ?”. אבל על כל מילה כזו יש לא מעט מלים שמשותפות לכולם.
    אני חושב שמעניין בהקשר הזה לדבר על חשיפה לשפות זרות. הלהג המצרי הוא להג שמכיל באופן יחסי מינון גבוה של מלים בצרפתית או בתורכית. אני לא לגמרי יודע למה דווקא זה קורה אצלם. במקביל, יש בשפה הערבית (גם בזו הספרותית) מלים בפרסית. לא זיהיתי, במעט העיראקית ששמעתי בחיי, השפעות חזקות יותר של הפרסית על הערבית של השכנים מעראק.
    זה לגבי הפער בין הלהגים, והרחבתי כי נראה לי שזה מעניין (לפחות אותי).עם זאת אני לא חושב שהחלוקה בין ערבית ספרותית למדוברת קשורה בהכרח בפריסה הגיאוגרפית הרחבה של השפה. לכולם יש ערבית מדוברת, כולם שולטים בזו הספרותית.

  9. ישראלNo Gravatarבתאריך 09 Mar 2009 בשעה 01:03

    חשבתי שנתחיל פה במשחקי גוגל, אבל הדיון התדרדר פה במהירות לתגובות מקיפות וענייניות. ננסה בכל זאת:
    חיפוש “קיתונות של” ללא קיטון/קיטונות – 8,760 תוצאות
    חיפוש “קיטונות של” ללא קיתון/קיתונות – 6,840 תוצאות

    העם עם הגירסה הנכונה, אבל זה ממש גבולי.

    “זורע חול” – 1,660 תוצאות
    “זורה חול” – 42,400 תוצאות

    הללויה! התוצאות מתקרבות הרבה יותר כשעוברים ל”זורעים חול” מול “זורים חול” – 1,670 מול 5,650 תוצאות, אבל עדיין יותר כותבים נכון.

    למעשה, חוץ מהגרב המסכן, לא הצלחתי למצוא דוגמאות שבהן הצורה השגויה על פי האקדמיה היא השגורה יותר בגוגל. “בוא נראה” יותר נפוץ מ”בו נראה”, “התראה אחרונה” יותר נפוץ מ”התרעה אחרונה”. אתגר?

  10. טליהNo Gravatarבתאריך 09 Mar 2009 בשעה 15:40

    בעקבות הפוסט והתגובות החלטתי לבדוק את הביטוי שהכי משגע אותי.
    משקר אותי, הוא שיקר אותי הם משקרים אותי וכו’ – אם יש טעות שמחרפנת אותי,הרי זוהי
    בקיצור החדשות דווקא טובות.
    משקר אותי זוכה ל674 אזכורים לעומת 18,700 למשקר לי.
    במקום שלישי, ראוי לציין יש את משקר עלי עם 245 אזכורים.

    ואם נחזור לדיון של עברית ספרותית ועברית מדוברת, זה מרגיש כאילו בעברית מדוברת זוכה ‘משקר אותי’ פופולריות הרבה יותר גבוהה ממה שמיוצג בגוגל

  11. אבנר קשתןNo Gravatarבתאריך 09 Mar 2009 בשעה 15:46

    טליה: אכן, תמיד יש את הפער בין הכתוב למדובר. לכן אני מגביל את החיפושים שלי לפעמים לאתרי בלוגלי וישראבלוג, שם אנשים נוהגים לכתוב בשפה יותר מדוברת. עד כדי כאב בעיניים לפעמים. אולי אפשר גם למצוא תמלולים של חדרי צ’ט.

    הממ.
    זה דווקא רעיון לא רע, לכתוב איזו תוכנה שמתחברת לחדרי צ’ט ושומרת תמלולים מלאים. יש כאן טעם לפגם – למרות שמדובר בפורום ציבורי ולא סגור, יש חוזה בלתי-כתוב שהכתוב שם הוא ארעי – אבל אולי זו דרך טובה לצבור מאגר גדול של שפה מדוברת ללא תיווך של עריכה.
  12. יואבNo Gravatarבתאריך 10 Mar 2009 בשעה 14:51

    ישראל, הדוגמא המובהקת ביותר היא המילה דוגמא. האקדמיה החליטה שאנחנו צריכים לסיים אותה בא’. העם אמר את דברו, ודוגמה מופיעה הרבה הרבה הרבה פחות מדוגמא (והמילה דוגמה מופיעה הרבה מאד פעמים בתור dogma).

כתובת טרקבק | RSS תגובות

השארת תגובה

  • הודעות אחרונות

  • לרישום בדואר

  • תגיות ונושאים

  • מהעבר

  • Meta

  • עמודים קבועים