معرفی Intel Gaudi 3 و قابلیت‌های فنی آن

 

شتاب‌دهنده هوش مصنوعی Intel Gaudi 3 جدیدترین نسل از سری شتاب ‌دهنده‌های هوش مصنوعی Habana (متعلق به اینتل) است که برای آموزش و استنتاج مدل‌های یادگیری عمیق در مقیاس بزرگ طراحی شده است. این تراشه دارای معماری اختصاصی برای عملیات ماتریسی و یادگیری عمیق بوده و از حافظه حجیم و شبکه پرسرعت بهره می‌برد. هر کارت Gaudi 3 به 128  گیگابایت حافظه پرسرعت HBM2e مجهز است که پهنای‌ باند بی‌نظیر ۳٫۷ ترابایت بر ثانیه را فراهم می‌کند. این میزان حافظه و پهنای ‌باند، چندین برابر GPUهای متداول انویدیا نسل قبل است) برای مقایسه، NVIDIA A100  حداکثر ۸۰GB  حافظه HBM2e با حدود ۲٫۰ ترابایت/ثانیه پهنای ‌باند داشت. توان محاسباتی Gaudi 3 نیز درخور توجه است؛ این شتاب‌دهنده از ۸ واحد ماتریس‌ ضرب (Matrix Engines) اختصاصی بهره می‌گیرد که مجموعاً توان پردازشی حدود ۱۶۷۸ ترافلاپ در دقت FP8 فراهم می‌کنند. به عبارت دیگر،Gaudi 3  در اجرای محاسبات ماتریسی با دقت‌های رایج هوش مصنوعی (FP8/BF16/FP16)  به توان پتافلاپی دست یافته و برای آموزش مدل‌های بسیار بزرگ، کاملاً توانمند است. همچنین معماری این تراشه شامل هسته‌های عمومی پردازشی (TPC) و حافظه پرسرعت روی ‌چیپ (SRAM) برای تسریع دسترسی داده‌هاست که پهنای‌باند داخلی عظیمی (مثلاً کش L2 با سرعت نزدیک ۱۹٫۲ ترابایت/ثانیه) ایجاد می‌کند.

قابلیت‌های معماری ویژه Gaudi 3 از جمله نقاط قوت آن است. این شتاب‌دهنده دارای واحدهای اختصاصی پردازش چندرسانه‌ای است که برای کاربردهای چندوجهی (Multi-modal) اهمیت دارد. به طور مشخص، Gaudi 3  دارای موتور سخت‌افزاری پردازش ویدیو/تصویر شامل یک ماژول  Rotatorو ۱۴ واحد دیکُد سخت‌افزاری است که از فرمت‌های ویدیویی و تصویری نظیر HEVC، H.264،  JPEG و VP9 پشتیبانی می‌کنند. این ویژگی به Gaudi 3  امکان می‌دهد در سناریوهای ترکیب پردازش زبان و تصویر/ویدیو (مثلاً مدل‌های بینایی زبانی- vision-language models (VLMs) یا پردازش ویدیو به همراه متن) کارآمد باشد، زیرا بخشی از بارِ پیش‌پردازشِ داده‌های چندرسانه‌ای را به صورت سخت‌افزاری انجام می‌دهد.

یکی دیگر از ویژگی‌های متمایز معماری Gaudi 3 بخش شبکه و اتصال‌دهی آن است. بر روی هر کارت Gaudi 3  به طور داخلی، ۲۴ رابط شبکه اترنت ۲۰۰ گیگابیت بر ثانیه با قابلیت RDMA تعبیه شده است که مجموعاً پهنای‌ باند شبکه‌ای دوطرفه ۱٫۲ ترابایت/ثانیه را برای هر شتاب‌دهنده فراهم می‌کند. این درگاه‌های شبکه داخلی، امکان ارتباط مستقیم شتاب‌دهنده‌ها با یکدیگر ( both scale-up داخل سرور و scale-out  بین سرورها) را بدون نیاز به سخت‌افزار اختصاصی اضافه، فراهم می‌نماید. به عنوان مثال، در یک سرور مرجع اینتل با ۸ کارت Gaudi 3، تمام کارت‌ها از طریق همین پورت‌های داخلی به صورت Peer-to-Peer کامل به یکدیگر متصل هستند و نیازی به سوئیچ شبکه‌ی درون ‌سروری (مانند NVSwitch در معماری‌های NVIDIA ) وجود ندارد. نتیجه اینکه ارتباط داخلی میان ۸ شتاب‌دهنده Gaudi 3 به پهنای ‌باند خیره‌کننده ۸٫۴ ترابایت/ثانیه دست می‌یابد. برای ارتباط بین سرورها نیز هر کارت Gaudi 3 مستقیماً به شبکه اترنت دیتاسنتری متصل می‌شود و از پروتکل‌های استاندارد (RDMA over Ethernet)  برای ارتباط خوشه‌ای بهره می‌گیرد. این طراحی اجازه می‌دهد صدها یا حتی هزاران شتاب‌دهنده Gaudi 3 روی یک کلاستر اترنت معمولی با هم کار کنند. طبق اعلام اینتل، معماری Gaudi 3 به صورت خطی تا ۸۱۹۲ شتاب‌دهنده در یک کلاستر قابل توسعه است، آن هم صرفاً با استفاده از همین پورت‌های اترنت داخلی و بدون نیاز به شبکه‌های اختصاصی گران‌ قیمت. چنین رویکردی برخلاف راهکار NVIDIA است که معمولاً برای اتصال بین ده‌ها GPU به فناوری اختصاصی NVLink/NVSwitch  (داخل سرور) و شبکه‌هایInfiniBand  (بین سرورها) نیاز دارد که هزینه و پیچیدگی بیشتری به همراه دارد. رویکرد اترنت ‌محور Gaudi 3 یک مزیت قابل توجه برای مراکز داده است، زیرا از زیرساخت شبکه استاندارد بهره می‌گیرد و قفل‌شدگی به اکوسیستم انحصاری شبکه‌های خاص را حذف می‌کند.

از منظر نرم‌افزار و اکوسیستم توسعه نیز، Intel Gaudi 3  استراتژی باز و کامیونیتی-محور را دنبال می‌کند. این شتاب‌دهنده از طریق نرم‌افزار SynapseAI (بستر نرم‌افزاری Habana ) به ‌خوبی با چارچوب‌های یادگیری عمیق رایج مانند PyTorch و TensorFlow یکپارچه شده است. بسیاری از کتابخانه‌ها و ابزارهای این پلتفرم، متن‌باز عرضه شده یا سازگار با نسخه‌های متن‌باز هستند که توسعه‌دهندگان را قادر می‌سازد با حداقل تغییر در کد، مدل‌های خود را روی Gaudi اجرا کنند. اینتل تأکید کرده است که Gaudi 3 جزو راهبرد Open AI Ecosystem  این شرکت است. به گفته‌ی مدیران اینتل، تقاضای صنعت برای تنوع در سخت‌افزار و نرم‌افزار AI رو به افزایش است و Gaudi 3 در کنار پردازنده‌های Xeon جدید این شرکت، به مشتریان اجازه می‌دهد بر پایه اکوسیستم باز به عملکرد و بهره‌وری بالا در هوش مصنوعی دست یابند. ین رویکرد متن‌باز می‌تواند به معنای دسترسی آزادتر به مستندات، درایورها و بهینه‌سازی‌های نرم‌افزاری باشد و وابستگی سازمان‌ها را به یک فروشنده خاص کاهش دهد. در مجموع، Intel Gaudi 3 از منظر معماری سخت‌افزاری و پشتیبانی نرم‌افزاری، یک پلتفرم توانمند و منعطف برای توسعه راهکارهای هوش مصنوعی در کلاس مراکز داده محسوب می‌شود.

کاربردها و جایگاه Gaudi 3 در بازار ایران

سازمان‌ها و صنایع بزرگ در ایران از بانک‌ها و مؤسسات مالی گرفته تا مراکز داده، شرکت‌های مخابراتی، شرکت‌های بزرگ تحلیل داده و صنایع نفت و گاز، همگی در سال‌های اخیر به اهمیت هوش مصنوعی و پردازش داده‌های عظیم پی برده‌اند. کاربردهایی نظیر تحلیل بلادرنگ تراکنش‌های بانکی (برای کشف تقلب)، مدل‌سازی زبانی برای پشتیبانی مشتریان (چت‌بات‌های فارسی)، پردازش اسناد و آرشیوهای متنی بزرگ، سیستم‌های توصیه‌گر و شخصی‌سازی و حتی مدل‌های مولد برای پایش و کنترل صنعتی، به سخت‌افزارهای پردازشی توانمند نیاز دارند. تاکنون بسیاری از این نیازها یا بر روی GPUهای انویدیا (سری Tesla  مانند A100 ) برآورده می‌شد یا به دلیل هزینه بسیار بالا و محدودیت‌های تأمین، به طور کامل اجرا نشده باقی می‌ماند. ورود شتاب‌دهنده‌ای مثل Intel Gaudi 3 به بازار می‌تواند معادلات را تغییر دهد.

مزایای Gaudi 3 برای سازمان‌های ایرانی قابل توجه است: نخست هزینه پایین‌تر آن است که برای مشتریان حساس به بودجه (که در شرایط اقتصادی فعلی ایران بسیار حائز اهمیت است) امکان سرمایه‌گذاری روی زیرساخت هوش مصنوعی را فراهم می‌کند. یک مرکز داده داخلی می‌تواند با بودجه مشخص، به جای مثلاً ۴ عدد GPU انویدیا، ۸ عدد Gaudi 3 تهیه کند و توان محاسباتی بیشتری در اختیار بگیرد. این به معنی آن است که مثلاً یک بانک می‌تواند شبکه عصبی تشخیص تقلب خود را با سرعت بالاتری آموزش دهد یا یک شرکت موتور جستجو می‌تواند مدل زبان فارسی بزرگ خود را در زمان کمتر و هزینه پایین‌تر، آموزش دهد. دوم، استفاده از اکوسیستم باز و نرم‌افزارهای متن ‌باز مورد توجه شرکت‌های ایرانی است؛ بسیاری از سازمان‌ها ترجیح می‌دهند وابستگی کمتری به پلتفرم‌های خارجی داشته باشند و با جامعه جهانی متن‌باز در توسعه مدل‌ها همراه شوند.  Gaudi 3با پشتیبانی از TensorFlow/PyTorch استاندارد و درایور متن‌ باز لینوکس، از این جهت گزینه مناسبی است و ریسک‌های ناشی از تحریم‌های فناوری یا عدم ارائه خدمات از سوی فروشندگان خارجی را کاهش می‌دهد. هرچند هم NVIDIA و هم Intel شرکت‌های آمریکایی‌اند و فروش سخت‌افزارهای پیشرفته آن‌ها ممکن است مشمول محدودیت باشد، اما Gaudi 3 تا زمان نگارش این متن (آگوست 2025) تحت محدودیت‌های صادراتی شدید (مانند مدل‌های خاص H100 برای چین) قرار ندارد و احتمال دسترسی به آن برای مشتریان بین‌المللی بیشتر است.

از منظر فنی، بسیاری از نیازهای سازمان‌های بزرگ ایرانی همسو با قابلیت‌های Gaudi 3 است. به عنوان مثال، بانک‌ها با داده‌های عظیم متنی و تراکنشی سروکار دارند، مدل‌های پردازش زبان طبیعی فارسی برای تحلیل مکالمات مرکز تماس، استخراج اطلاعات از اسناد و قراردادها، یا ارزیابی ریسک اعتباری می‌توانند روی خوشه‌ای از Gaudi 3 با هزینه معقول اجرا شوند. حافظه  128 GBهر Gaudi اجازه می‌دهد مدل‌های زبانی با دایره لغات بزرگ و ورودی‌های طولانی (مثل مکالمات چندین صفحه‌ای) را بدون تکه‌تکه کردن، پردازش کنند. همچنین بانک‌ها به دلیل ماهیت حساس داده‌ها، معمولاً ترجیح به استقرار داخلی (On-Premise) به جای سرویس‌های ابری خارجی دارند؛ Gaudi 3 دقیقاً برای استفاده درون‌دیتاسنتری بهینه شده است و شرکت‌هایی مانند Dell و  HPE  و سوپرمیکرو نیز سرورهای مبتنی بر Gaudi 3 ارائه می‌دهند. بنابراین یک بانک می‌تواند سرورهای Gaudi را در دیتا سنتر خود مستقر کرده و از آنها به عنوان شتاب‌دهنده AI در کنار سرورهای سنتی بهره گیرد.

مراکز داده و شرکت‌های ارائه‌دهنده خدمات ابری داخلی نیز با Gaudi 3 فرصت جدیدی پیدا می‌کنند تا سرویس‌های  AI-as-a-Serviceرقابتی عرضه کنند. تاکنون، فراهم‌کنندگان سرویس ابری در ایران برای ارائه ماشین‌های مجازی GPUدار عمدتاً به کارت‌های نسل گذشته (مثل NVIDIA T4 یا حتی GTX/RTXهای رده بالا) روی آورده‌اند که توان و حافظه محدودی دارند. با Gaudi 3 می‌توان سرویس‌هایی معادل A100/H100 ولی با قیمت پایین‌تر ارائه داد و نیاز پژوهشگران و استارتاپ‌ها به سخت‌افزارهوش مصنوعی را تأمین کرد. به طور جهانی هم IBM Cloud  به عنوان اولین ارائه‌دهنده بزرگ، Gaudi 3 را در سرویس ابری خود در کنار  GPUهای انویدیا عرضه کرده است و گزارش کرده است که مشتریان می‌توانند با هزینه کمتر، به همان نتایج دست یابند. چنین الگویی در ایران هم می‌تواند دنبال شود و ارائه Gaudi 3 در سبد خدمات دیتاسنترها در کنار GPU به تنوع انتخاب و کاهش هزینه برای مشتریان نهایی منجر خواهد شد.

برای شرکت‌های مخابراتی و فناوری که روی پروژه‌های هوش مصنوعی مقیاس کشور کار می‌کنند (مثلاً تشخیص گفتار فارسی در مقیاس ملی، پایش شبکه‌های اجتماعی، یا سیستم‌های توصیه‌گر محتوا) Gaudi 3 به دلیل مقیاس‌پذیری شبکه‌ای آسان روی خوشه‌های بزرگ و هزینه عملیاتی کمتر، بسیار جذاب است. آنها می‌توانند با ترکیب چند ده یا چند صد شتاب‌دهنده Gaudi 3 و اتصالشان از طریق شبکه ۲۰۰/۴۰۰ گیگابیت )که تهیه آن از سازندگان تجهیزات شبکه آسان‌تر و ارزان‌تر از InfiniBand است( یک ابررایانه هوش مصنوعی تشکیل دهند. چنین کلاستری توان پردازشی عظیمی برای آموزش مدل‌های زبان فارسی با ده‌ها میلیارد کلمه یا بینایی کامپیوتر روی میلیاردها تصویر فراهم می‌کند. نکته مثبت دیگر برای توسعه‌دهندگان ایرانی این است که با استفاده از اکوسیستم PyTorch رویGaudi ، می‌توانند از آخرین دستاوردهای جامعه متن ‌باز (مدل‌های آماده، کدهای بهینه‌سازی‌شده) بهره‌مند شوند و دغدغه زیادی بابت ناسازگاری نداشته باشند، در حقیقت، Gaudi 3  در پشت صحنه، جزییات اجرای مدل را بهینه می‌کند ولی از دید کاربر، همان پایتورچ استاندارد است.

در حوزه صنایع علمی و پژوهشی نیز، Gaudi 3  می‌تواند نقش‌آفرین باشد. مراکز تحقیقاتی و دانشگاه‌های بزرگ کشور که قصد راه‌اندازی زیرساخت محاسباتی برای تحقیقات هوش مصنوعی را دارند، با بودجه مشخص می‌توانند به جای تعداد محدودی GPU انویدیا، تعداد بیشتری Gaudi تهیه کنند و ظرفیت محاسباتی بیشتری در اختیار دانشجویان و محققان قرار دهند. از آنجایی که کدهای بسیاری از مقالات هوش مصنوعی در گیت هاب متن‌باز هستند و قابل اجرا بر بستر پایتورچ/تنسورفلو می‌باشند، Gaudi 3  امکان اجرای مستقیم این کدها را فراهم می‌کند و سد ورود تحقیقات به سخت‌افزار خاص را از میان برمی‌دارد.