
بایدو در ادامه روند توسعه هوش مصنوعی خود، از مدل جدید PP-OCRv5 پردهبرداری کرد؛ مدلی که برای تشخیص نوری حروف (OCR) طراحی شده و با پشتیبانی از بیش از 40 زبان، میتواند به ابزار مهمی برای توسعهدهندگان و پژوهشگران تبدیل شود.
شرکت بایدو که پیشتر مدل Ernie X1.1 را معرفی کرده بود، اکنون با انتشار PP-OCRv5 نشان داده است که تمرکز خود را روی بهبود قابلیتهای کاربردی هوش مصنوعی قرار داده است. این مدل تازه، که هماکنون از طریق Hugging Face در دسترس عموم قرار دارد، یکی از سبکترین و کارآمدترین ابزارهای OCR محسوب میشود.
نکته برجسته در طراحی PP-OCRv5 توانایی آن در خواندن متون دقیق و ساختاریافته است؛ جایی که بسیاری از مدلهای بزرگ بینایی-زبان معمولاً دچار خطا میشوند. بایدو این مدل را طوری ساخته که ابتدا مکان دقیق متن را در تصویر تشخیص میدهد و سپس آن را میخواند. این دو مرحله به مدل کمک میکند تا در استخراج داده از اسناد و فرمها دقت بالایی داشته باشد.
مدل جدید بایدو تنها 0.07 میلیارد پارامتر دارد. این عدد در مقایسه با مدلهای شناختهشده حوزه OCR بسیار کوچک است، اما همین موضوع باعث شده اجرای آن روی دستگاههای معمولی هم امکانپذیر باشد. آزمایشها نشان داده که PP-OCRv5 قادر است بیش از 370 کاراکتر در ثانیه را روی پردازنده Intel Xeon پردازش کند؛ به این معنا که حتی در سیستمهای موبایلی یا دستگاههای لبه فناوری (Edge Devices) هم بدون نیاز به دیتاسنترهای بزرگ قابل اجراست.
این مدل در آزمایشهای مقایسهای با ابزارهایی مانند Gemini 2.5 Pro و GPT-4o توانسته عملکرد رقابتی از خود نشان دهد. نکته مهم دیگر اینکه، علاوه بر متون چاپی، این مدل قابلیت پردازش دستنوشتهها را نیز دارد؛ قابلیتی که استفاده از آن را در حوزههایی مثل دیجیتالیسازی اسناد، بایگانی یا تحلیل دادههای دستنویس ارزشمندتر میکند.
با توجه به پشتیبانی از بیش از 40 زبان، توسعهدهندگان در سراسر جهان میتوانند از PP-OCRv5 بهره ببرند. انتشار عمومی این مدل در پلتفرم Hugging Face نیز گام دیگری است که دسترسی را آسانتر کرده و راه را برای استفاده گستردهتر باز میکند.
به این ترتیب، بایدو PP-OCRv5 میتواند نقطه عطفی در توسعه ابزارهای OCR سبک و قابلاجرا روی سختافزارهای محدود باشد؛ موضوعی که میتواند مسیر استفاده از هوش مصنوعی را برای کسبوکارهای کوچک و کاربردهای روزمره نیز هموار کند.
