OCR چیست؟
۱۳۸۸/۰۷/۲۷ | برچسبها: ترفندهای کامپیوتر | 0نظرات
فرض کنید که ما متنی را روی کاغذ داریم و میخواهیم آن را وارد رایانه کنیم. اولین روشی که به ذهن میرسد این است که متن را به تایپیست بدهیم تا با کامپیوتر تایپ کند. اما آیا میشود عین همان متن را وارد رایانه بکنیم تا نیازی به تایپ نباشد؟ البته دستگاه «اسکنر» میتواند تصویری از آن متن را وارد رایانه کند، تا اینجا بخشی از مشکل ما حل شده است. اما رایانه که نه عقلی دارد و نه «زبان» میفهمد، نمیتواند حروف و کلمات را از هم تشخیص دهد. مثلاً اگر از کامپیوتر بخواهیم به ما بگوید که در متن اسکنشده کلمهٔ «علی» چند بار آمده است، بیآنکه شرمنده شود، میگوید نمیتوانم تشخیص بدهم! در واقع این «تصویر دیجیتالشده» باید به «تصویر قابل پردازش» تبدیل شود. موضوع اصلی OCR همین است.
● OCR سرنام اصطلاحی است که صورت کامل آن در واژهنامههای انگلیسی به دو صورت آمده است:
۱. Optical Character Recognition
۲. Optical Character Reader
● انواع OCR
در زبانهای دیگر، به ویژه زبانهایی که با حروف لاتینی نوشته میشوند، سالهاست که از OCR استفاده میشود. اما در ایران تازه دو سه سالی است که به فکر استفاده از OCR در زبان فارسی افتادهایم.
و اما OCR چند نوع است: یا تایپی است یا دستنویس. یعنی یا باید یک متن قبلاً تایپ شده را (مثل کتابها و روزنامههای چندین سال قبل، یا حتی متنی را که فایل تایپی آن موجود نیست و فقط پرینت آن را داریم) وارد رایانه کنیم، یا متن دستنویس را. متنهای دستنویس هم به دو صورت «گسسته» و «پیوسته» وجود دارند: متن «دستنویس پیوسته» مثل همان چیزهایی است که ما هرازگاهی که دلمان تنگ میشود روی کاغذ مینویسیم، یا یک نامه، یا یک قطعه شعر و ... اما متن «دستنویس گسسته» همان نوشتههایی است که حروف آن جدا از هم و به صورت گسسته نوشته شدهاند، مثل نام و نامخانوادگی که در فرمهای آزمون ثبتنام، به صورت هر حرف داخل یک کادر، نوشته میشوند. طراحی OCR گسستهٔ فارسی تقریباً در مراحل پایانی کار قرار دارد ولی، OCR پیوسته ظاهراً سالهای زیادی کار میبرد.
● فارسی ما و مشکلات آن
قبل از اینکه به مراحل دیگر OCR بپردازیم، لازم است اندکی هم به مشکلات خط فارسی ــ یا در واقع ویژگیهای این خط ــ بپردازیم. اول اینکه ما در فارسی حروف را به صورت چسبیده و پیوسته مینویسیم و این کار برای تشخیص حرف به حرف نوشته از سوی رایانه (که قرار است در مراحل بعدی آن را تایپ کند) بسیار مشکل است. تصور کنید که همین کلمه ساده «است» را به حالتهای مختلف میشود نوشت: یکی برای «س» دندانه میگذارد، یکی نمیگذارد، یکی آن را میکشد و یکی نمیکشد و... حالا اگر همین صورتهای مختلف «س» به «ت» هم بچسبند، تشخیص حروف برای ما انسانها هم سخت میشود، چه رسد به رایانه.
● شباهت حروف
مشکل دیگر خط ما این است که حرفهای فارسی بسیار به هم شبیهاند. مثلاً در نظر بگیرید که تفاوت «ر» با «ز» با «ذ» یا «ب» با «ت» تنها در یک نقطه است، و چون نقطه جزء بسیار کوچکی است، اگر یک خط یا حتی یک لک کوچک روی کاغذ بیفتد، تشخیص حروف از هم بسیار دشوار میشود و دردسر جدی برای بازشناسی حروف توسط رایانه ایجاد میکند. اینها تازه مشکلات خط فارسی است. دربارهٔ اعداد فارسی هم این مشکل وجود دارد: صفر ما یک نقطه کوچک است که میتواند رایانه را به اشتباه بیندازد؛ اعداد ۴، ۳، ۲، ۱ هم بسیار به هم شبیه هستند و تنها تفاوتشان یک دندانه کوچک است.
به دلایل گفته شده OCR درمرحلهٔ کنونی در کشور ما مربوط به «دستنویسهای گسسته» یا متنهای تایپی پیوسته است، و تا بازشناسی متنهای دستنویس پیوسته توسط کامپیوتر راه زیادی در پیش است، چون در دستنویسهای گسسته، اگرچه حروف به هم شباهت دارند، حداقل جداجدا نوشته شدهاند. در متنهای پیوسته تایپی هم مشکل کشیده شدن یک حرف یا شکسته نوشته شدن حروف را نداریم. البته به گفته مسئولان شرکت «پایا» در حال حاضر هم نرمافزارهایی وجود دارد که متن دستنویس پیوسته را تبدیل به حروف جدا ازهم و گسسته میکنند، ولی ضریب خطای این نرمافزارها زیاد است و به شکل صنعتی درنیامدهاند.
● بازشناسی حروف و الگو
تا اینجا گفتیم تصویر صفحهای که در آن حروف به طور جداجدا (هر حرف داخل یک کادر) نوشته شده است، به وسیلهٔ اسکن وارد رایانه میشود. مرحلهٔ بعدی این است که حروف بازشناسی شوند، یعنی مکان آنها از دیگر خطوط (مثل خطوط کادری که داخل آن نوشته شده) بازشناسی شود، و اگر متن پیوسته تایپی است، حروف جدا شوند و زواید تصویر حذف شود. مثلاً اگر دانشآموزی «س» را به گونهای نوشت که بیرون از کادر بود، به رایانه بفهمانیم که بیدقتی شده است او باید همان حرف داخل کادر را بخواند.
در مرحلهٔ بعدی که «بازشناسی الگو» نام دارد، با تعدادی شرط میشود فهمید که مثلاً حرفی «الف» است یا نه، و رایانه تشخیص میدهد که حرف «پ» است یا «ب». برای این تشخیص لازم است که تصویر حرف «الف» با الفهای نمونه ــ که قبلاً به رایانه داده شده است ــ منطبق شود. الفبای نمونه قبلاً از روی یک مجموعه بزرگ آموزشی تهیه شده و ویژگیهای مشترک از آن استخراج شده است.
اما از آنجا که تنوع صورتها نوشتاری یک حرف به صورت دستنویس بسیار زیاد است، مدلی آماری استخراج میشود که در آن شباهت ویژگیهای استخراج شدهٔ قبلی با نمونه ورودی به رایانه بررسی میشود. در اینجا «بازشناسی الگو» با روشهای آماری انجام میشود که روش معمول در سیستمهای OCR است.
اگر فکر میکنید که کار تمام شده است در اشتباهید، چون تازه میرسیم به دنبالهٔ حروف. مثلاً اگر کسی همان حرف «س» را با دنباله بنویسد، رایانه باید تشخیص دهد که این حرف فقط «س» است، یا مثلاً «ی» هم به آن چسبیده است.
● مدلسازی یا پردازش زبانی
مرحله بعدی «مدلسازی زبانی» یا «پردازش زبانی» نام دارد. حروف به هم چسبیده، که کلمه را درست میکنند، باید معنیدار یا شناختهشده باشند. در این مرحله بررسی میشود که چه کلماتی در زبان وجود دارد؟ چه ترکیبهایی از کلمات مجاز است؟
و... البته در مراحل پیشرفتهتر، مدلسازی گرامری (دستور زبان) و مدلسازی معنایی هم وجود دارد که تشخیص میدهد جمله از لحاظ دستوری و معنایی درست است یا بیمفهوم است. اما در OCR گسسته ــ که بیشتر برای ثبتنام استفاده شده ــ شباهت یک کلمه به نام، نام خانوادگی، شهر و ... کافی است.
برای تشخیص ترکیبهای مجاز یک کلمه یا معنیدار بودن یک کلمه نیز به تهیهٔ بانکهای اطلاعاتی (Data base) نیاز داریم. در این بانکها مثلاً تمام نامهای کوچک و بزرگ ایرانیان قبلاً جمعآوری شده است و هنگام تطبیق یک کلمه با آن مشخص میشود که رایانه حروف آن را دست تشخیص داده یا نه. بنابراین نقش این بانک اطلاعاتی بسیار مهم است، چون اگر نامی در آن ثبت نشده باشد، کلمهای که آن نام را شامل شود، به طور خودکار از برنامه OCR حذف میشود یا پیغام میآید که: «این کلمه اشتباه است» در صورتی که ممکن است مثلاً نام «هشام» در بین نامهای ایرانی وجود داشته باشد، ولی قبلاً در بانک اطلاعاتی ثبت نشده باشد.
● بانکهای ما و دیگران
مهندس «رزازی» دربارهٔ مشکل بانکهای اطلاعاتی در زبان فارسی میگوید: «در دنیا برای توسعهٔ OCR و ارزیابی آن، بانکهای اطلاعاتی استاندارد ساخته شده است که در آنها همهٔ کلمات وجود دارند، یعنی بانک هم مشکل دیجیتال کلمه را دارد، و هم تصویرش را. اما برای زبان فارسی، این بانکهای اطلاعاتی چه برای ارزیابی و چه برای توسعه، استاندارد شده نیست. در واقع هر کسی برای خودش یک بانک اطلاعاتی میسازد، و این نمونههای متفاوت مشکلاتی را ایجاد میکند.
مثلاً برای ثبتنام دانشآموزانی که در آزمون مدارس تیزهوشان شرکت کرده بودند، یک بانک اطلاعاتی حاوی نامهای فارسی، از روی اطلاعات فرمهای سالهای قبل، تهیه شد که از روی آن کلماتی که خیلی شبیه به نامهای فارسی بودند تشخیص داده میشد. مثلاً اگر رایانه کلمهای را «مصیبت» تشخیص داد، براساس بانک اطلاعاتی معلوم میشود که «مصیب» بوده است که یک نام ایرانی است.
مطالب مشابه مورد علاقه شما درباره ترفندهای کامپیوتر
این مطلب در ساعت۱۱:۴۱ بعدازظهر
و در دسته
ترفندهای کامپیوتر
ارسال شده است.شما می توانید تمام نظرات این پست را از طریق خروجی
RSS 2.0.
آن دنبال کنید.
شما می توانید برای این نوشته نظری ارسال کنید,
یا در سایت خود به آن لینک بدهید .
مطالب قبلي
-
»
2009
(2917)
-
»
اکتبر
(1186)
- دانلود داستان های بحارالانوار نوشته محمود ناصری با...
- نمونه هایی متنوع از مبل راحتی با طرح های گوناگون
- ضریب هوشی خود را بسنجید
- دانلود گلچین 20 آهنگ برتر و خاطره انگیز جهان . با ...
- تصاویر جالب از آرش و آیسل در سراسر دنیــــا
- تماشای شبک های آنلاین با Super Internet TV v8.1 Pr...
- فشرده سازی تصاویر با Advanced JPEG Compressor 2009...
- اوبونتو ۷.۰۴ با نام مستعار Feisty Fawn «آهوی چابک»...
- گالری عكس آيشواريا راي سری دوم
- مرورگر قدرتمند و محبوب Mozilla Firefox v3.5.4
- ابزاری مفید برای مجموعه آفیس OfficeTab v1.22
- بازي بسيار جذابGT Racing Motor Academy
- امنیتی مثال زدنی با Kaspersky Anti-Virus & Interne...
- خلق کاراکترهای سخنگو با CrazyTalk v6.0 Pro
- همزمان از چند سیستم عامل استفاده کنید!Virtual Box ...
- ساخت ویندوز اتوماتیک نصب با Almeza MultiSet Profes...
- تبدیل آخرین نوشته وبلاگ به عکس
- گالری عکس هنر تبلیغات
- تجربه سيستم عامل لينوكس با Slax Linux v 6.0.7
- کرک های جدید برای ویندوز 7
- Microsoft Windows 7 Ultimate Final RTM نسخه نهایی ...
- بیوگرافی و عکس روناک یونسی بازیگر سریال رستگاران
- دانلود مستقیم سه کلیپ صوتی جواد تونی و...
- کامل ترین گالری مدل لباس عروس2009سری دوم
- دانلود دو آهنگ جدید و زیبا به نام های بی قرار و زم...
- جستجو در میان فایل های رپیدشر و مگا آپلود
- طرح دکوراسیون منزل آبی رنگ برای آرامش و شکوه
- 3dfilter جستجوگر مدل های سه بعدی
- تصاویر جومونگ در تمرینات تیم سایپا
- کسانی که ساق پای لاغر دارند چه کفشی بپوشند
- بهترین طراحی چتر
- خداوند
- مدل های جدید از دیور2009
- همه چیز راجع به صافی كف پا
- مواد لازم جهت دعا نویسی
- شکار لحظه ها از حیوانات
- گالری عکس خاله شادونه (همسر علی صادقی) با فرزندانش
- 10 راه آسان برای خوشحال نمودن همسر
- Cody McCasland و روحیه شگفت انگیز او !
- علی کریمی آرزوی قد بلند ترین جوان ایران را محقق کرد
- جذابیت شخصیتی و نفوذ در دیگران
- مجموعه ای از عکس های جالب و دیدنی
- از چه عطری و اودکلنی و در چه موقعیتی استفاده کنیم ؟
- بیماری سایه»را بشناسیم
- 22 توصیه برای غلبه بر ترس از مدرسه!!
- چرا موها مي ريزند؟
- 10غذا براي تقويت حافظه
- خواص گیاه کاسنی
- علت خونريزي بيني
- ویندوز 7 را تنهابایک کلیک بهینه سازید
- کتری موزیکال ، کنترل از راه دور با ناخن ، ماگی ویژ...
- تصویری فوق العاده جالب
- هاب یو اس بی به شکل نوار کاست، شارپ AQUOS DX2، ضبط...
- جدید ترین مدل کت و شلوار شیک و زیبا دامادی 2009
- خودتان بسازید: ۵ نگه دارنده برای گجت ها
- ویندوز مدیا پلیر برای موبایل -
- طریقه حذف کردن My Recent Documents
- چگونه موبایل شنود می شود؟
- بازی KO Fighters 3D با فرمت جاوا
- عکس : طراحی های جدید میز پینگ پونگ
- جایگزینی مناسب و سبک به جای برنامه آکروبات ریدر
- دانلود کتابچه راهنمای کامل گوشی ها به تفکیک گوشی- ...
- نکاتی درباره آرام پز
- مجموعه کتاب های الکترونیکی روانشناسی برای موبایل -...
- کتاب اطلاعات ضروری لپ تاپ برای موبایل - جاوا
- گالری عکس پرواز Flying
- مخفی کردن IP در برابر هکرها
- آنجلینا جولی با ریش و سبیل
- Attractive Chair صندلی های جالب
- ماشین های بازیکنان فوتبال
- فواید دعای برای فرج: رستگاری به شفاعت پیامبر (ص)
- سرعتتون تو تایپ چطوره؟ (تست سرعت تایپ)
- چگونه دندان های شفاف و براقی داشته باشیم؟
- عکسهای جالب و دیدنی از حواشی بازی استقلال و پرسپولیس
- عکس های بی نظیر از هنر عکاسی ضد نور یا سیلوئت
- استفاده اینه در گوشی موبایل با برنامهmirror v1.1
- قرآن برای موبایل با فرمتsis
- Beautiful Photographs Of A Cloudy Day عکس های زیبا...
- ۷باور مرموز که موجب موفقیت می شود
- عکس های فتوشاپی زیبا و خلاقانه
- افتتاح لوکس ترین، زیباترین و گران ترین هتل جهان در...
- هفت روش رسیدن به ارزوها
- جدیدترین کد مراکز خدمت نظام وظیفه
- طرز تهيه برياني
- طرز تهیه سوپ کلم
- نکات مهم و ضروری در آشپزی و شیرینی پزی
- طرز تهیه فالوده با نودل برنج چینی
- طرز تهيه اردور تخم مرغ
- دانستنی های خانه داری
- طرز تهیه سمبوسه پنیر بچه ها
- طرزتهیه باسلق
- کلوچه ی سیب
- طرز تهیه فروماژ پرتقال
- طرز تهیه لوز نارگیل
- طرز تهیه تارت میوه ی فصل
- طرز تهیه چندین نوع نوشیدنی گوارا در منزل
- طرز تهیه پیتزا با خمیر گندم کامل
- مكمل های طبیعی كاهنده كلسترول
- طرز تهیه سردست بره معطر
- مجموعه جدید طراحی لباس ویکتوریا بکهام درنیویورک
-
»
اکتبر
(1186)
0 نظرات:
ارسال یک نظر