У цьому блозі ми розповімо вам про найпоширеніші помилки, яких припускається бізнес при створенніСервери з графічним процесоромдля роботи зі штучним інтелектом. Таким чином, ви зможете уникнути головного болю і зробити все правильно з першого разу.
Ти знав?
Прийом. 801TP3% проектів зі штучного інтелекту не просуваються далі пілотної стадії або стадії підтвердження концепції до повноцінного виробництва. Зазвичай це відбувається через погане планування, брак кваліфікованого персоналу або проблеми з інфраструктурою. Це показує, чому так важливо налаштувати та підготувати такі системи, як обробка графіки сервери належним чином перед тим, якВикористовуйте їх, щоб уникнути затримок і низької продуктивності.
Щоб запустити проекти зі створення штучного інтелекту, потрібні серйозні обчислювальні потужності. Ось де Виділений графічний процесор сервери уявити собі картину. Але багато команд ставляться до розгортання як до чогось простого, а потім дивуються, чому через три місяці все розвалюється.
Основні висновки
- Збої в системі охолодження виводять з ладу дороге обладнання швидше, ніж ви думаєте
- Вибір графічних процесорів на основі лише специфікацій зазвичай призводить до зворотного результату
- Ваш стек програмного забезпечення може зробити або зламати все
- Вимоги до потужності застають більшість команд зненацька
- Пропустити моніторинг - це, по суті, накликати на себе біду
Чому всі поспішають з розгортанням GPU?
- Ваш бос хоче результатів ще вчора. Часові рамки проекту були агресивними ще до його початку. Всі дихають вам у потилицю, коли буде готова модель штучного інтелекту. Тож ви замовляєте обладнання, складаєте його і сподіваєтесь на краще.
- Такий підхід спалює гроші та марнує час. Перш ніж щось купувати, потрібно зрозуміти, як виглядають ваші робочі навантаження. Ви тренуєте масивні мовні моделі, які з'їдають пам'ять на сніданок? Або виконуєте завдання на виведення, які більше піклуються про пропускну здатність?
- Спочатку витратьте кілька днів на тестування на хмарних екземплярах GPU. Так, це коштує певних грошей, але виявити, що обрана вами конфігурація не працює після того, як ви купили $100K в апаратному виконанні, набагато болючіше. Документуйте все під час тестування. Ці цифри скажуть вам саме те, що вам потрібно.
Що з охолодженням?
- Графічні процесори генерують багато тепла. Один графічний процесор найвищого рівня виділяє стільки ж тепла, скільки й обігрівач. А тепер уявіть вісім таких процесорів в одному сервері. Ваш стандартний офісний кондиціонер не впорається з цим.
- Ось що трапляється, коли ви ігноруєте охолодження: Ваш дорогий Сервер графічних процесорів починає зменшувати продуктивність, щоб уникнути самостійного приготування. Навчання займає вдвічі більше часу. Ви витрачаєте тижні на налагодження “проблем з продуктивністю”, які є просто тепловими проблемами. Якщо натискати занадто сильно і занадто довго, компоненти починають виходити з ладу раніше.
- Потрібно правильно спроектувати повітряні потоки. Гаряче повітря має виходити, а холодне - входити. Деякі системи потребують рідинного охолодження, оскільки повітря не може відводити тепло достатньо швидко. Розрахуйте вихідну потужність BTU до прибуття серверів. Переконайтеся, що ваша команда знає, що вас чекає.
Як правильно вибрати графічний процесор?
- Купуючи графічні процесори, порівнюючи технічні характеристики, ви можете придбати не те обладнання, яке вам потрібно. Маркетингові цифри не скажуть вам, чи підходить графічний процесор для вашого сценарію використання.
- Об'єм пам'яті має величезне значення для ШІ. Якщо вашій моделі потрібно 40 ГБ, а ви купили карти на 24 ГБ, ви в глухому куті. Пам'ять графічного процесора не можна збільшити пізніше, вона розпаяна. Ви або змусите її працювати через болючі обхідні шляхи, або купите нові карти.
- Але ось у чому проблема: більше пам'яті не завжди є відповіддю. Іноді ви натрапляєте на обмеження обчислень, а не на обмеження пам'яті. Розуміння того, що є вашим вузьким місцем, може заощадити тисячі доларів. Запустіть інструменти профілювання коду. З'ясуйте, де все сповільнюється. Потім підберіть апаратне забезпечення відповідно до цих конкретних потреб.
- Не все потребує найвищої точності. Багато завдань з виводу чудово виконуються на INT8. Вам не потрібен графічний процесор, створений для наукових обчислень, якщо ви просто виконуєте виробничий висновок.
Чи може ваше програмне забезпечення працювати на цьому обладнанні?
- Апаратне забезпечення марне, якщо ваше програмне забезпечення не працює на ньому. Звучить очевидно, чи не так? Проте команди постійно стикаються з проблемами сумісності після розгортання.
- Версія CUDA, яка потрібна вашому фреймворку, може не працювати з вашою версією драйвера. Або ваша улюблена збірка PyTorch вимагає залежностей, які конфліктують з іншими потрібними вам інструментами. Ці проблеми забирають дні або тижні на усунення несправностей. Ваш Комп'ютерний сервер з графічним процесором сидить і нічого не робить, поки розробники б'ються головою об пекло залежностей.
- Створіть весь стек програмного забезпечення в контейнерах, перш ніж замовляти обладнання. Docker робить це керованим. Зберіть PyTorch, TensorFlow, драйвери CUDA - все, що працює разом у контейнері. Тестуйте свій реальний код на ньому.
- Записуйте кожен номер версії, кожен прапорець конфігурації, кожну змінну оточення. Коли через півроку щось зламається (а це станеться), вам знадобиться ця документація.
Чому так боляче платити за електроенергію?
- Ніхто не думає про електроенергію, поки не прийде перший рахунок. Кожен графічний процесор тягне 300-500 ват. Процесори, пам'ять, накопичувачі, вентилятори - все це додається. Повністю завантаженому комп'ютерному серверу з 8 графічними процесорами можуть знадобитися спеціальні 30-амперні ланцюги.
- У вашому офісі, ймовірно, не було такої розетки. Стандартні розетки не впораються з цим. Вам потрібен електрик, щоб встановити правильні ланцюги з відповідною силою струму. Пропуск цього кроку означає, що в кращому випадку вимикачі вимкнуться, в гіршому - виникне небезпека пожежі.
- А ще є щомісячна плата. Ці машини працюють 24/7. При ціні $0,12 за кіловат-годину, один сервер потужністю 4 кВт коштує близько $350 щомісяця лише за електроенергію. Кілька Виділені сервери з графічним процесором? Порахуйте самі. Це без урахування витрат на охолодження, які додають ще 30-50% до вашого рахунку за електроенергію.
- Бюджет на системи ДБЖ також. Перебої з електроживленням руйнують тренувальні заїзди. Брудне живлення пошкоджує компоненти.
Ваша мережа знижує продуктивність?
- Графічні процесори шалено швидко обчислюють числа. Їм потрібно, щоб дані доставлялися так само швидко, інакше вони простоюють в очікуванні наступної партії. Вузькі місця в мережі знижують ефективність графічних процесорів.
- Стандартний гігабітний Ethernet не підійде для серйозної роботи з ML. Вам потрібно мінімум 10GbE, а краще швидше. Розподілене навчання на декількох машинах? Для цього потрібен InfiniBand або 100GbE. Так, це дорого. Спостерігати за тим, як ваші інвестиції в $200K GPU працюють на 20%, тому що мережа не встигає, ще дорожче.
- Зберігання теж має значення. Завантаження навчальних даних з повільного мережевого сховища створює ту саму проблему. Локальні накопичувачі NVMe допомагають, але з часом вам знадобляться швидкі мережеві шляхи до місць, де зберігаються ваші набори даних.
- Іноді проблема полягає не в апаратному забезпеченні. Оптимізуйте ваш конвеєр даних. Краще кешування, розумніша попередня обробка, ефективне завантаження даних та покращення програмного забезпечення часто допомагають більше, ніж просто збільшення пропускної здатності.
Зробити все правильно - важливіше, ніж поспішати з виконанням.
Поспішне розгортання графічних процесорів створює дорогі проблеми, на вирішення яких йдуть місяці. Витратьте час на планування заздалегідь. Перевірте свої припущення. Правильно визначте розмір своєї інфраструктури.
Технології швидко змінюються. Ваша ідеальна система сьогодні може потребувати оновлення через два роки. Передбачте гнучкість з самого початку. Залиште місце для більшої потужності, кращого охолодження, швидшого підключення до мережі.
Поговоріть з людьми, які робили це раніше. Спільноти AI та ML постійно діляться історіями з практики розгортання. Звертайте увагу на чужі помилки, щоб не припускатися їх самостійно.
Хмарні сервери з графічними процесорами коштують серйозних грошей. Правильне планування гарантує, що ви отримаєте цінність від цих інвестицій замість того, щоб спостерігаючи за тим, як вона не справляється з роботою або виходить з ладу. Зробіть так, щоб нудна інфраструктура працювала належним чином, і ваші ШІ-проекти матимуть міцний ґрунт для розвитку.


