תרגום גוגל (google translate) הוא שירות תרגום מכונה הניתן בחינם על ידי חברת גוגל. מתרגם גוגל הוא אולי התוצאה המתקדמת ביותר הזמינה לציבור כיום של התפתחות הבלשנות החישובית והממוחשבת. תרגום גוגל עושה שימוש באלגוריתמים מורכבים ביותר המבוססים על היקרות סטטיסטית של מילים (ולא כל חוקים דקדוקיים, כפי שהיה נהוג בעבר בתחום) בכדי לספק תרגומים מקורבים של טקסטים משפה לשפה. המרכיב הסטטיסטי של האלגוריתם, כמו בטכניקות אחרות של תרגום מכונה, גורם לכך שרמת הדיוק של מתרגם גוגל עולה ככל שהשפות קרובות יותר אחד לשנייה. כלומר, תרגום של גוגל מאנגלית לעברית יהיה פחות מוצלח מאשר תרגום גוגל מאנגלית לספרדית.
מה שמיוחד באלגוריתם של מתרגם גוגל הוא העובדה שהוא זונח את התפיסות המקובלות, הנובעות מעיקר מהמסורת הבלשנית, של ניסיון לשכפל את יחסי הדקדוק-לקסיקון. גישה זו ניסתה לדמות את תוכנת המחשב לאופן שבו אנו סבורים שהלשון שלנו פועלת, כלומר, בעיקרון הגס, אוסף של ערכים סמנטיים שמשתלב עם אוסף של חוקים דקדוקיים ומפיק מבעים. תחת זו התפיסה של תרגום גוגל היא של השוואת קורפוסים גדולים של טקסטים בשתי שפות. העיקרון שעומד מאחורי היכולות המופלאות של מנוע התרגום של גוגל הוא שבכדי ליצור תרגום מכונה בין שתי שפות יש צורך בטקסטים דו-לשוניים באורך של מיליון מילים, וכן בקורפוסים של טקסט נוספים בכל שפה בני מיליארד מילים. מודלים סטטיסטיים מוחלים על הנתונים ומפיקים מערכת שאינה מבוססת על חוקים דדוקטיביים מהבלשנות, אלא על חוקים אינדוקטיביים של הסטטיסטיקה, המערכת מסתמכת על השימוש בפועל בשפה, ולא על החוקים הדסקריפטיביים שלה.
בכדי לפתח את תרגום גוגל החברה השתמשה במסמכים של האו"ם שכמובן נכתבים בשפע ובמספר גדול של שפות. הסיבה שבגללה תרגום של גוגל עובד יותר טוב בין אנגלית וספרדית מאשר תרגום גוגל מאנגלית לעברית, היא לא רק הקרבה הלשונית בין השפות אלא גם בשל העובדה שמסמכי האו"ם ששימשו כבסיס למערכת מתרגם גוגל נכתבו בשש השפות הרשמיות שלו – ערבית, סינית, אנגלית, צרפתית, רוסית וספרדית – עומדים לרשות גוגל 20 מיליון מילים מתורגמות, יותר מהכמות שעליה מבוסס האלגוריתם של תרגום גוגל מאנגלית לעברית.
אין תגובות:
הוסף רשומת תגובה