ארכיון התגית 'עברית'

Mar 08 2009

טעות לעולם וכו’

בפוסט הקודם שלי טעיתי באיות הביטוי “קיתונות של בוז” כ-“קיטונות” – טעות נפוצה למדי עקב העובדה שהמילה “קיטון”, נידחת ככל שתהיה, עדיין נפוצה ומוכרת יותר מאשר “קיתון”, ותודה לישראל על שתיקן אותי.

אז תהיתי באמת אם רק אני חטאתי כאן או שהטעות נפוצה. פניתי, מעשה חברי Language Log, לגוגל כמנוע מחקר ראשוני בנושא.

את הביטוי “קיתונות של בוז” (כביטוי תחום במרכאות) אפשר למצוא 1,340 פעם. את “קיטונות של בוז” – 1,550. על פניו, נראה שהטעות נפוצה יותר מהאמת. אבל אם נחדד את בדיקה לחיפוש שמכיל את “קיטונות של בוז” אבל לא את “קיתונות של בוז” – רק את הטעות – ירדנו ל-86 תוצאות בלבד. “קיתונות” בלי “קיטונות”, לעומת זאת – 154 תוצאות.

מה המשמעות? המשמעות הראשונית, המתבקשת, היא שיש כמעט פי 10 עמודי באינטרנט שדנים בטעות הזו מאשר שבעצם משתמשים במטבע הלשון. זה נראה לי קצת קיצוני. אפשרות נוספת היא שכל פעם שמישהו טעה, הוא מיד קיבל תיקון – בטוקבקים או תגובות – מה שהופך את החיפוש לחסר משמעות כמתודה מחקרית.

ומה עוד יותר סביר? שגוגל מעוותים כל כך את השאילתא שלי, מוציאים ממנה שורשים (stemming) ומלים נפוצות (stop words) שאין שום דרך לדעת מה באמת נפוץ יותר.

12 תגובות

Jan 27 2009

עברית קשה שפה

למרות שהתקדמנו מרחק ניכר מאז ימי DOS, כשהיינו צריכים להעלות תוכנה מיוחדת כדי לראות עברית. ולמרות שהרחקנו גם מימי העברית הויזואלית בראשית ימי האינטרנט שהפכה לנו את הכיוונים כל הזמן. למרות שהגענו למנוחת היוניקוד לנחלת ה-RTL, עדיין אף אחד לא מצליח לשלב, באמת, עברית ואנגלית באותה שורה בצורה חלקה לחלוטין. לא בטוח שזה בכלל אפשרי. מה שבטוח, שבינתיים יהיו לנו דברים כאלה:

FacebookHebrewWordbreakSillyness

שיגרמו לנו לתהות מה באמת רצינו להשיג במלחמה הזו.

16 תגובות

  • הודעות אחרונות

  • לרישום בדואר

  • תגיות ונושאים

  • מהעבר

  • Meta

  • עמודים קבועים