بایدو از PP-OCRv5 رونمایی کرد؛ مدلی کوچک اما قدرتمند برای خواندن متن

بایدو از PP-OCRv5 رونمایی کرد

بایدو در ادامه روند توسعه هوش مصنوعی خود، از مدل جدید PP-OCRv5 پرده‌برداری کرد؛ مدلی که برای تشخیص نوری حروف (OCR) طراحی شده و با پشتیبانی از بیش از 40 زبان، می‌تواند به ابزار مهمی برای توسعه‌دهندگان و پژوهشگران تبدیل شود.

شرکت بایدو که پیش‌تر مدل Ernie X1.1 را معرفی کرده بود، اکنون با انتشار PP-OCRv5 نشان داده است که تمرکز خود را روی بهبود قابلیت‌های کاربردی هوش مصنوعی قرار داده است. این مدل تازه، که هم‌اکنون از طریق Hugging Face در دسترس عموم قرار دارد، یکی از سبک‌ترین و کارآمدترین ابزارهای OCR محسوب می‌شود.

نکته برجسته در طراحی PP-OCRv5 توانایی آن در خواندن متون دقیق و ساختاریافته است؛ جایی که بسیاری از مدل‌های بزرگ بینایی-زبان معمولاً دچار خطا می‌شوند. بایدو این مدل را طوری ساخته که ابتدا مکان دقیق متن را در تصویر تشخیص می‌دهد و سپس آن را می‌خواند. این دو مرحله به مدل کمک می‌کند تا در استخراج داده از اسناد و فرم‌ها دقت بالایی داشته باشد.

مدل جدید بایدو تنها 0.07 میلیارد پارامتر دارد. این عدد در مقایسه با مدل‌های شناخته‌شده حوزه OCR بسیار کوچک است، اما همین موضوع باعث شده اجرای آن روی دستگاه‌های معمولی هم امکان‌پذیر باشد. آزمایش‌ها نشان داده که PP-OCRv5 قادر است بیش از 370 کاراکتر در ثانیه را روی پردازنده Intel Xeon پردازش کند؛ به این معنا که حتی در سیستم‌های موبایلی یا دستگاه‌های لبه فناوری (Edge Devices) هم بدون نیاز به دیتاسنترهای بزرگ قابل اجراست.

اپ جیمیل با هوش مصنوعی ایمیل‌ها را خودکار خلاصه می‌کند

این مدل در آزمایش‌های مقایسه‌ای با ابزارهایی مانند Gemini 2.5 Pro و GPT-4o توانسته عملکرد رقابتی از خود نشان دهد. نکته مهم دیگر اینکه، علاوه بر متون چاپی، این مدل قابلیت پردازش دست‌نوشته‌ها را نیز دارد؛ قابلیتی که استفاده از آن را در حوزه‌هایی مثل دیجیتالی‌سازی اسناد، بایگانی یا تحلیل داده‌های دست‌نویس ارزشمندتر می‌کند.

با توجه به پشتیبانی از بیش از 40 زبان، توسعه‌دهندگان در سراسر جهان می‌توانند از PP-OCRv5 بهره ببرند. انتشار عمومی این مدل در پلتفرم Hugging Face نیز گام دیگری است که دسترسی را آسان‌تر کرده و راه را برای استفاده گسترده‌تر باز می‌کند.

به این ترتیب، بایدو PP-OCRv5 می‌تواند نقطه عطفی در توسعه ابزارهای OCR سبک و قابل‌اجرا روی سخت‌افزارهای محدود باشد؛ موضوعی که می‌تواند مسیر استفاده از هوش مصنوعی را برای کسب‌وکارهای کوچک و کاربردهای روزمره نیز هموار کند.

آیا این مقاله برای شما مفید بود؟
تقریبا
خیر

دیدگاهتان را بنویسید

ارسال دیدگاه به معنی این است که شما ابتدا قوانین ارسال دیدگاه را مطالعه کرده‌اید و با آن موافق هستید.