OCR הוא ראשי תיבות של זיהוי תווים אופטיים, ביטוי באנגלית שניתן לתרגם ככינוי אופי אופטי. הרעיון משמש במדעי המחשב לשם שמות נוהל המאפשר דיגיטציה של טקסט באמצעות סורק.
מה ש- OCR מאפשר זה שכאשר מעבירים טקסט דרך מכשיר מסוים, המערכת מזהה את התווים כחלק מאלף-בית. באופן זה ניתן לערוך את המסמך הסרוק באמצעות מעבד תמלילים, מכיוון שהוא לא נשמר כתמונה.
באופן זה OCR מקל על העבודה שרבים מהאנשים צריכים לעשות. אם מישהו סורק ספר מתוך כוונה לעשות סיכום, בזכות OCR הוא יוכל לקיים אינטראקציה עם הטקסט הסרוק באמצעות תוכנית כמו Microsoft Word, לחתוך, להעתיק ולהדביק כל מילה, דבר בלתי אפשרי אם לא יתבצע תהליך זיהוי כזה. מכיוון שהמחשב אינו מסוגל להבין את הטקסט שבתמונה.
בנוסף ליתרון הברור של אחסון טקסט ככזה ולא כתמונה, יש את ההבדל המשמעותי במשקל: תמונות יכולות לתפוס הרבה יותר שטח בדיסק מאשר טקסטים, ויש לקחת זאת בחשבון אם אתה רוצה שיהיו לך ספרים. מספרים שלמים סרקו. כמובן שלא בכל המקרים רצוי שהמחשב יבצע את ה- OCR, במיוחד אם אין כוונה לערוך את התוכן.
זה מוזר שרק יישום אחד יכול לשנות את הקיבולת של אותו מחשב בצורה כל כך דרסטית, אבל זה מה שקורה בכל המקרים: למרות שמעבדים מודרניים יכולים להיות יעילים מאוד, במיוחד בשילוב עם זיכרונות ודיסקים חדישים, הם חסרי תועלת ללא התוכניות המתאימות, וזו הסיבה שאותה מכונה יכולה לעבור מלהיות חסרת תועלת למתקדמת במיוחד פשוט בגלל התוכנה שיש לה.
למרות התקדמות הטכנולוגיה, OCR עדיין מתמודד עם בעיות שונות. קבלת מערכת דיגיטלית לזהות טקסט בכתב יד למשל, זה די קשה. התהליך לרוב לא נוח לפלח את יחידות הטקסט השונות. אותו דבר קורה כאשר המילים מופיעות קרובות זו לזו.
פגמים אחרים ב- OCR יכולים להופיע כאשר אין מספיק ניגודיות בין המילים לרקע. נניח שטקסט כתוב באותיות שחורות מודפס על גיליון אפור: ייתכן שתהליך ה- OCR לא יוכל להבחין בין אותיות למילים.
בל נשכח, שכפי שפעולה לכאורה פשוטה כמו הליכה ברחוב דורשת סדרה של פעולות משלימות בכדי להימנע ממכשולים ולהגן על שלמותנו, קריאת טקסט מודפס היא תוצאה של מספר משימות זיהוי סימולטניות, אותן אנו מבצעים. ביצע כמעט באופן לא מודע, אבל אנחנו לוקחים עבודה.
כאשר אנו מתמודדים עם טקסט, מערכת OCR משלנו אחראית על חיפוש והכרת הכותרת, זיהוי פסקאות, סימני פיסוק, רווחים בין מילים וקיצורים, בין שאר האלמנטים, בנוסף לעשות מאמץ להבין את המקורות. מקושטים או לא מסודרים וכדי להשלים את המידע באזורים שסבלו מכל סוג של בלאי, כגון כתם דיו או פיסת נייר חסרה.