Как запустить в прод нейросеть: Triton Inference Server + TensorRT
В этом видео покажу как запускать нейросети в production с помощью Triton Inference Server. Лекция более чем на 90% состоит из практики! Мы разберем работу с моделями в формате ONNX, и TensorRT с помощью Тритона. Научимся конвертировать модели в TensorRT для ускорения инференса. Создадим асинхронное API на FastAPI для взаимодействия с Triton Inference Server. На практике рассмотрим динамический батчинг и масштабирование инстансов для повышения производительности. Покажу настройку мониторинга инференс сервера через Prometheus и Grafana. Также проведем нагрузочное тестирование API для оценки пропускной способности модели при разных размерах батча. Код из этого видео доступен по ссылке: https://github.com/Koldim2001/Triton_example Таймкоды из видео: 0:45 – Что такое ONNX формат модели 1:45 – Что такое Triton Inference Server и как он используется в продкшене 6:11 – Переводим модель из PyTorch в ONNX 8:31 – Как запустить ONNX модель в Тритоне 15:17 – Написание FastAPI приложения для асинхронной работы с Тритоном 30:52 – Что такое TensorRT 33:00 – Переводим модель из ONNX в TensorRT 39:03 – Настраиваем Prometheus и Grafana для визуализации метрик 53:18 – Сравниваем скорости моделей ONNX и TensorRT 57:53 – Тестируем работу инференс сервера при разных настройках 1:08:42 – Пример нагрузочного тестирования с использованием Locust Подписывайтесь на канал, чтобы быть в курсе новых видео и узнавать больше о машинном обучении и компьютерном зрении! #MLEngineering #AI #TritonServer #TensorRT #FastAPI #ProductionML #ONNX #Prometheus #Grafana #Тритон
В этом видео покажу как запускать нейросети в production с помощью Triton Inference Server. Лекция более чем на 90% состоит из практики! Мы разберем работу с моделями в формате ONNX, и TensorRT с помощью Тритона. Научимся конвертировать модели в TensorRT для ускорения инференса. Создадим асинхронное API на FastAPI для взаимодействия с Triton Inference Server. На практике рассмотрим динамический батчинг и масштабирование инстансов для повышения производительности. Покажу настройку мониторинга инференс сервера через Prometheus и Grafana. Также проведем нагрузочное тестирование API для оценки пропускной способности модели при разных размерах батча. Код из этого видео доступен по ссылке: https://github.com/Koldim2001/Triton_example Таймкоды из видео: 0:45 – Что такое ONNX формат модели 1:45 – Что такое Triton Inference Server и как он используется в продкшене 6:11 – Переводим модель из PyTorch в ONNX 8:31 – Как запустить ONNX модель в Тритоне 15:17 – Написание FastAPI приложения для асинхронной работы с Тритоном 30:52 – Что такое TensorRT 33:00 – Переводим модель из ONNX в TensorRT 39:03 – Настраиваем Prometheus и Grafana для визуализации метрик 53:18 – Сравниваем скорости моделей ONNX и TensorRT 57:53 – Тестируем работу инференс сервера при разных настройках 1:08:42 – Пример нагрузочного тестирования с использованием Locust Подписывайтесь на канал, чтобы быть в курсе новых видео и узнавать больше о машинном обучении и компьютерном зрении! #MLEngineering #AI #TritonServer #TensorRT #FastAPI #ProductionML #ONNX #Prometheus #Grafana #Тритон