معرفی Intel Gaudi 3 و قابلیتهای فنی آن
شتابدهنده هوش مصنوعی Intel Gaudi 3 جدیدترین نسل از سری شتاب دهندههای هوش مصنوعی Habana (متعلق به اینتل) است که برای آموزش و استنتاج مدلهای یادگیری عمیق در مقیاس بزرگ طراحی شده است. این تراشه دارای معماری اختصاصی برای عملیات ماتریسی و یادگیری عمیق بوده و از حافظه حجیم و شبکه پرسرعت بهره میبرد. هر کارت Gaudi 3 به 128 گیگابایت حافظه پرسرعت HBM2e مجهز است که پهنای باند بینظیر ۳٫۷ ترابایت بر ثانیه را فراهم میکند. این میزان حافظه و پهنای باند، چندین برابر GPUهای متداول انویدیا نسل قبل است) برای مقایسه، NVIDIA A100 حداکثر ۸۰GB حافظه HBM2e با حدود ۲٫۰ ترابایت/ثانیه پهنای باند داشت. توان محاسباتی Gaudi 3 نیز درخور توجه است؛ این شتابدهنده از ۸ واحد ماتریس ضرب (Matrix Engines) اختصاصی بهره میگیرد که مجموعاً توان پردازشی حدود ۱۶۷۸ ترافلاپ در دقت FP8 فراهم میکنند. به عبارت دیگر،Gaudi 3 در اجرای محاسبات ماتریسی با دقتهای رایج هوش مصنوعی (FP8/BF16/FP16) به توان پتافلاپی دست یافته و برای آموزش مدلهای بسیار بزرگ، کاملاً توانمند است. همچنین معماری این تراشه شامل هستههای عمومی پردازشی (TPC) و حافظه پرسرعت روی چیپ (SRAM) برای تسریع دسترسی دادههاست که پهنایباند داخلی عظیمی (مثلاً کش L2 با سرعت نزدیک ۱۹٫۲ ترابایت/ثانیه) ایجاد میکند.
قابلیتهای معماری ویژه Gaudi 3 از جمله نقاط قوت آن است. این شتابدهنده دارای واحدهای اختصاصی پردازش چندرسانهای است که برای کاربردهای چندوجهی (Multi-modal) اهمیت دارد. به طور مشخص، Gaudi 3 دارای موتور سختافزاری پردازش ویدیو/تصویر شامل یک ماژول Rotatorو ۱۴ واحد دیکُد سختافزاری است که از فرمتهای ویدیویی و تصویری نظیر HEVC، H.264، JPEG و VP9 پشتیبانی میکنند. این ویژگی به Gaudi 3 امکان میدهد در سناریوهای ترکیب پردازش زبان و تصویر/ویدیو (مثلاً مدلهای بینایی زبانی- vision-language models (VLMs) یا پردازش ویدیو به همراه متن) کارآمد باشد، زیرا بخشی از بارِ پیشپردازشِ دادههای چندرسانهای را به صورت سختافزاری انجام میدهد.
یکی دیگر از ویژگیهای متمایز معماری Gaudi 3 بخش شبکه و اتصالدهی آن است. بر روی هر کارت Gaudi 3 به طور داخلی، ۲۴ رابط شبکه اترنت ۲۰۰ گیگابیت بر ثانیه با قابلیت RDMA تعبیه شده است که مجموعاً پهنای باند شبکهای دوطرفه ۱٫۲ ترابایت/ثانیه را برای هر شتابدهنده فراهم میکند. این درگاههای شبکه داخلی، امکان ارتباط مستقیم شتابدهندهها با یکدیگر ( both scale-up داخل سرور و scale-out بین سرورها) را بدون نیاز به سختافزار اختصاصی اضافه، فراهم مینماید. به عنوان مثال، در یک سرور مرجع اینتل با ۸ کارت Gaudi 3، تمام کارتها از طریق همین پورتهای داخلی به صورت Peer-to-Peer کامل به یکدیگر متصل هستند و نیازی به سوئیچ شبکهی درون سروری (مانند NVSwitch در معماریهای NVIDIA ) وجود ندارد. نتیجه اینکه ارتباط داخلی میان ۸ شتابدهنده Gaudi 3 به پهنای باند خیرهکننده ۸٫۴ ترابایت/ثانیه دست مییابد. برای ارتباط بین سرورها نیز هر کارت Gaudi 3 مستقیماً به شبکه اترنت دیتاسنتری متصل میشود و از پروتکلهای استاندارد (RDMA over Ethernet) برای ارتباط خوشهای بهره میگیرد. این طراحی اجازه میدهد صدها یا حتی هزاران شتابدهنده Gaudi 3 روی یک کلاستر اترنت معمولی با هم کار کنند. طبق اعلام اینتل، معماری Gaudi 3 به صورت خطی تا ۸۱۹۲ شتابدهنده در یک کلاستر قابل توسعه است، آن هم صرفاً با استفاده از همین پورتهای اترنت داخلی و بدون نیاز به شبکههای اختصاصی گران قیمت. چنین رویکردی برخلاف راهکار NVIDIA است که معمولاً برای اتصال بین دهها GPU به فناوری اختصاصی NVLink/NVSwitch (داخل سرور) و شبکههایInfiniBand (بین سرورها) نیاز دارد که هزینه و پیچیدگی بیشتری به همراه دارد. رویکرد اترنت محور Gaudi 3 یک مزیت قابل توجه برای مراکز داده است، زیرا از زیرساخت شبکه استاندارد بهره میگیرد و قفلشدگی به اکوسیستم انحصاری شبکههای خاص را حذف میکند.
از منظر نرمافزار و اکوسیستم توسعه نیز، Intel Gaudi 3 استراتژی باز و کامیونیتی-محور را دنبال میکند. این شتابدهنده از طریق نرمافزار SynapseAI (بستر نرمافزاری Habana ) به خوبی با چارچوبهای یادگیری عمیق رایج مانند PyTorch و TensorFlow یکپارچه شده است. بسیاری از کتابخانهها و ابزارهای این پلتفرم، متنباز عرضه شده یا سازگار با نسخههای متنباز هستند که توسعهدهندگان را قادر میسازد با حداقل تغییر در کد، مدلهای خود را روی Gaudi اجرا کنند. اینتل تأکید کرده است که Gaudi 3 جزو راهبرد Open AI Ecosystem این شرکت است. به گفتهی مدیران اینتل، تقاضای صنعت برای تنوع در سختافزار و نرمافزار AI رو به افزایش است و Gaudi 3 در کنار پردازندههای Xeon جدید این شرکت، به مشتریان اجازه میدهد بر پایه اکوسیستم باز به عملکرد و بهرهوری بالا در هوش مصنوعی دست یابند. ین رویکرد متنباز میتواند به معنای دسترسی آزادتر به مستندات، درایورها و بهینهسازیهای نرمافزاری باشد و وابستگی سازمانها را به یک فروشنده خاص کاهش دهد. در مجموع، Intel Gaudi 3 از منظر معماری سختافزاری و پشتیبانی نرمافزاری، یک پلتفرم توانمند و منعطف برای توسعه راهکارهای هوش مصنوعی در کلاس مراکز داده محسوب میشود.
کاربردها و جایگاه Gaudi 3 در بازار ایران
سازمانها و صنایع بزرگ در ایران از بانکها و مؤسسات مالی گرفته تا مراکز داده، شرکتهای مخابراتی، شرکتهای بزرگ تحلیل داده و صنایع نفت و گاز، همگی در سالهای اخیر به اهمیت هوش مصنوعی و پردازش دادههای عظیم پی بردهاند. کاربردهایی نظیر تحلیل بلادرنگ تراکنشهای بانکی (برای کشف تقلب)، مدلسازی زبانی برای پشتیبانی مشتریان (چتباتهای فارسی)، پردازش اسناد و آرشیوهای متنی بزرگ، سیستمهای توصیهگر و شخصیسازی و حتی مدلهای مولد برای پایش و کنترل صنعتی، به سختافزارهای پردازشی توانمند نیاز دارند. تاکنون بسیاری از این نیازها یا بر روی GPUهای انویدیا (سری Tesla مانند A100 ) برآورده میشد یا به دلیل هزینه بسیار بالا و محدودیتهای تأمین، به طور کامل اجرا نشده باقی میماند. ورود شتابدهندهای مثل Intel Gaudi 3 به بازار میتواند معادلات را تغییر دهد.
مزایای Gaudi 3 برای سازمانهای ایرانی قابل توجه است: نخست هزینه پایینتر آن است که برای مشتریان حساس به بودجه (که در شرایط اقتصادی فعلی ایران بسیار حائز اهمیت است) امکان سرمایهگذاری روی زیرساخت هوش مصنوعی را فراهم میکند. یک مرکز داده داخلی میتواند با بودجه مشخص، به جای مثلاً ۴ عدد GPU انویدیا، ۸ عدد Gaudi 3 تهیه کند و توان محاسباتی بیشتری در اختیار بگیرد. این به معنی آن است که مثلاً یک بانک میتواند شبکه عصبی تشخیص تقلب خود را با سرعت بالاتری آموزش دهد یا یک شرکت موتور جستجو میتواند مدل زبان فارسی بزرگ خود را در زمان کمتر و هزینه پایینتر، آموزش دهد. دوم، استفاده از اکوسیستم باز و نرمافزارهای متن باز مورد توجه شرکتهای ایرانی است؛ بسیاری از سازمانها ترجیح میدهند وابستگی کمتری به پلتفرمهای خارجی داشته باشند و با جامعه جهانی متنباز در توسعه مدلها همراه شوند. Gaudi 3با پشتیبانی از TensorFlow/PyTorch استاندارد و درایور متن باز لینوکس، از این جهت گزینه مناسبی است و ریسکهای ناشی از تحریمهای فناوری یا عدم ارائه خدمات از سوی فروشندگان خارجی را کاهش میدهد. هرچند هم NVIDIA و هم Intel شرکتهای آمریکاییاند و فروش سختافزارهای پیشرفته آنها ممکن است مشمول محدودیت باشد، اما Gaudi 3 تا زمان نگارش این متن (آگوست 2025) تحت محدودیتهای صادراتی شدید (مانند مدلهای خاص H100 برای چین) قرار ندارد و احتمال دسترسی به آن برای مشتریان بینالمللی بیشتر است.
از منظر فنی، بسیاری از نیازهای سازمانهای بزرگ ایرانی همسو با قابلیتهای Gaudi 3 است. به عنوان مثال، بانکها با دادههای عظیم متنی و تراکنشی سروکار دارند، مدلهای پردازش زبان طبیعی فارسی برای تحلیل مکالمات مرکز تماس، استخراج اطلاعات از اسناد و قراردادها، یا ارزیابی ریسک اعتباری میتوانند روی خوشهای از Gaudi 3 با هزینه معقول اجرا شوند. حافظه 128 GBهر Gaudi اجازه میدهد مدلهای زبانی با دایره لغات بزرگ و ورودیهای طولانی (مثل مکالمات چندین صفحهای) را بدون تکهتکه کردن، پردازش کنند. همچنین بانکها به دلیل ماهیت حساس دادهها، معمولاً ترجیح به استقرار داخلی (On-Premise) به جای سرویسهای ابری خارجی دارند؛ Gaudi 3 دقیقاً برای استفاده دروندیتاسنتری بهینه شده است و شرکتهایی مانند Dell و HPE و سوپرمیکرو نیز سرورهای مبتنی بر Gaudi 3 ارائه میدهند. بنابراین یک بانک میتواند سرورهای Gaudi را در دیتا سنتر خود مستقر کرده و از آنها به عنوان شتابدهنده AI در کنار سرورهای سنتی بهره گیرد.
مراکز داده و شرکتهای ارائهدهنده خدمات ابری داخلی نیز با Gaudi 3 فرصت جدیدی پیدا میکنند تا سرویسهای AI-as-a-Serviceرقابتی عرضه کنند. تاکنون، فراهمکنندگان سرویس ابری در ایران برای ارائه ماشینهای مجازی GPUدار عمدتاً به کارتهای نسل گذشته (مثل NVIDIA T4 یا حتی GTX/RTXهای رده بالا) روی آوردهاند که توان و حافظه محدودی دارند. با Gaudi 3 میتوان سرویسهایی معادل A100/H100 ولی با قیمت پایینتر ارائه داد و نیاز پژوهشگران و استارتاپها به سختافزارهوش مصنوعی را تأمین کرد. به طور جهانی هم IBM Cloud به عنوان اولین ارائهدهنده بزرگ، Gaudi 3 را در سرویس ابری خود در کنار GPUهای انویدیا عرضه کرده است و گزارش کرده است که مشتریان میتوانند با هزینه کمتر، به همان نتایج دست یابند. چنین الگویی در ایران هم میتواند دنبال شود و ارائه Gaudi 3 در سبد خدمات دیتاسنترها در کنار GPU به تنوع انتخاب و کاهش هزینه برای مشتریان نهایی منجر خواهد شد.
برای شرکتهای مخابراتی و فناوری که روی پروژههای هوش مصنوعی مقیاس کشور کار میکنند (مثلاً تشخیص گفتار فارسی در مقیاس ملی، پایش شبکههای اجتماعی، یا سیستمهای توصیهگر محتوا) Gaudi 3 به دلیل مقیاسپذیری شبکهای آسان روی خوشههای بزرگ و هزینه عملیاتی کمتر، بسیار جذاب است. آنها میتوانند با ترکیب چند ده یا چند صد شتابدهنده Gaudi 3 و اتصالشان از طریق شبکه ۲۰۰/۴۰۰ گیگابیت )که تهیه آن از سازندگان تجهیزات شبکه آسانتر و ارزانتر از InfiniBand است( یک ابررایانه هوش مصنوعی تشکیل دهند. چنین کلاستری توان پردازشی عظیمی برای آموزش مدلهای زبان فارسی با دهها میلیارد کلمه یا بینایی کامپیوتر روی میلیاردها تصویر فراهم میکند. نکته مثبت دیگر برای توسعهدهندگان ایرانی این است که با استفاده از اکوسیستم PyTorch رویGaudi ، میتوانند از آخرین دستاوردهای جامعه متن باز (مدلهای آماده، کدهای بهینهسازیشده) بهرهمند شوند و دغدغه زیادی بابت ناسازگاری نداشته باشند، در حقیقت، Gaudi 3 در پشت صحنه، جزییات اجرای مدل را بهینه میکند ولی از دید کاربر، همان پایتورچ استاندارد است.
در حوزه صنایع علمی و پژوهشی نیز، Gaudi 3 میتواند نقشآفرین باشد. مراکز تحقیقاتی و دانشگاههای بزرگ کشور که قصد راهاندازی زیرساخت محاسباتی برای تحقیقات هوش مصنوعی را دارند، با بودجه مشخص میتوانند به جای تعداد محدودی GPU انویدیا، تعداد بیشتری Gaudi تهیه کنند و ظرفیت محاسباتی بیشتری در اختیار دانشجویان و محققان قرار دهند. از آنجایی که کدهای بسیاری از مقالات هوش مصنوعی در گیت هاب متنباز هستند و قابل اجرا بر بستر پایتورچ/تنسورفلو میباشند، Gaudi 3 امکان اجرای مستقیم این کدها را فراهم میکند و سد ورود تحقیقات به سختافزار خاص را از میان برمیدارد.
