وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجوگر قبلا" پایگاه داده اش را آماده کرده است و این گونه نیست که درست در همان لحظه جستجو، تمام وب را بگردد. بسیاری از خود می پرسند که چگونه ممکن است گوگل در کمتر از یک ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در نتایج جستجوی خود ارایه کند؟
کلمات کلیدی: OCR ٕ اسکنر ٕ بازشناسی الگو ٕ پردازش زبانی ٕ مدل سازی زبانی ٕ
فرض کنید که ما متنی را روی کاغذ داریم و میخواهیم آن را وارد رایانه کنیم. اولین روشی که به ذهن میرسد این است که متن را به تایپیست بدهیم تا با کامپیوتر تایپ کند. اما آیا میشود عین همان متن را وارد رایانه بکنیم تا نیازی به تایپ نباشد؟
البته دستگاه «اسکنر» میتواند تصویری از آن متن را وارد رایانه کند، تا اینجا بخشی از مشکل ما حل شده است. اما رایانه که نه عقلی دارد و نه «زبان» میفهمد، نمیتواند حروف و کلمات را از هم تشخیص دهد.
مثلاً اگر از کامپیوتر بخواهیم به ما بگوید که در متن اسکنشده کلمه «علی» چند بار آمده است، بیآنکه شرمنده شود، میگوید نمیتوانم تشخیص بدهم! در واقع این «تصویر دیجیتالشده» باید به «تصویر قابل پردازش» تبدیل شود. موضوع اصلی OCR همین است.