Pimnara Parts
Корзина
0 товаров
+7 (495) 212-91-21
Обратный звонок

NVIDIA Tesla P100 – самый мощный вычислительный ускоритель на GPU

11 Апреля 2017

 На конференции GPU Technology Conference 2016 NVIDIA удивила многих, представив не только архитектуру Pascal, но и вычислительный ускоритель Tesla P100 на соответствующих GPU. Но первые модули Tesla P100 были представлены только в 8-чиповой конфигурации, например, тот же NVIDIA DGX-1. Для связи с другими компонентами использовался интерфейс NVLink.

Появление вычислительных ускорителей с интерфейсом PCI Express было лишь вопросом времени.

 Архитектура Pascal в виде GPU GP104 также используется на игровых видеокартах GeForce GTX 1080, но там имеются важные отличия. Упомянем Unified Memory, ECC с памятью HBM2 и NVLink.

                   Ускоритель Tesla P100TCSP100M-16GB-PBTCSP100M-12GB-PB
 Но вернемся к Tesla P100 с интерфейсом PCI Express. Подход не изменился: если требуется высокая вычислительная производительность в как можно меньшем пространстве, NVIDIA рекомендует Tesla P100. В фокусе находятся и сети глубокого обучения, процесс тренировки в которых выиграет от высокой производительности FP16 и скоростной памяти.

 Почти во всех сценариях Tesla P100 демонстрирует существенные преимущества по сравнению с GPU-ускорителями на архитектуре Maxwell. Конечно, сильнее всего выигрывают те сети, которые были оптимизированы под интерфейс NVIDIA. Здесь можно отметить Caffe и Alexnet.


                                     Ускоритель Tesla P100TCSP100M-16GB-PBTCSP100M-12GB-PB


 По аппаратному обеспечению между версиями Tesla P100 с интерфейсом NVLink и PCI Express имеются некоторые отличия. Вычислительна производительность варианта NVLink составляет 5,3 TFLOPS с двойной и 10,6 TFLOPS с одинарной точностью, чуть выше двух версий PCI Express. Вероятно, причина кроется в дизайне системы охлаждения и ограничениях, накладываемых спецификацией PCI Express. Но NVIDIA предлагает и разные конфигурации памяти. Вычислительная производительность составляет 4,7 TFLOPS с двойной и 9,3 TFLOPS с одинарной точностью. Важная для сетей Deep Learning производительность FP16 была уменьшена с 21 TFLOPS до 18,7 TFLOPS.

                     Ускоритель Tesla P100TCSP100M-16GB-PBTCSP100M-12GB-PB

 Конфигурация памяти первой версии идентична ранее объявленному ускорителю: 16 Гбайт HBM2 с пропускной способностью 720 Гбайт/с.
Вторая конфигурация оснащена 12 Гбайт памяти с пропускной способностью 540 Гбайт/с.
Если ускорители Tesla P100 с интерфейсом NVLink теоретически подключались к серверу с пропускной способностью более 160 Гбайт/с, пропускная способность PCI Express ограничивается 32 Гбайт/с в двух направлениях. В этом кроется самое серьезное ограничение версий PCI Express.





Источник: NVIDIA

Назад к списку