RUTUBE
Добавить
Уведомления
  • Главная
  • RUTUBE для блогеров
  • Каталог
  • Популярное
  • В топе
  • Shorts
  • ТВ онлайн
  • Трансляции
  • Моё
  • Фильмы
  • RUTUBE x PREMIER

Войдите, чтобы подписываться на каналы, комментировать видео и оставлять реакции


  • Подписки
  • История просмотра
  • Плейлисты
  • Смотреть позже
  • Комментарии

  • Авто
  • Анимация
  • Блогеры
  • Видеоигры
  • Детям
  • Еда
  • Интервью
  • Команда R
  • Культура
  • Лайфхаки
  • Музыка
  • Новости и СМИ
  • Обучение
  • Оriginals
  • Подкасты
  • Путешествия
  • Радио
  • Разговоры о важном
  • Сельское хозяйство
  • Сериалы
  • Спорт
  • Телешоу
  • Фонды помощи
  • Футбол
  • Юмор
Телеканалы
  • Иконка канала Первый канал
    Первый канал
  • Иконка канала Россия 1
    Россия 1
  • Иконка канала МАТЧ
    МАТЧ
  • Иконка канала НТВ
    НТВ
  • Иконка канала Пятый канал
    Пятый канал
  • Иконка канала Телеканал Культура
    Телеканал Культура
  • Иконка канала Россия 24
    Россия 24
  • Иконка канала ТВЦ
    ТВЦ
  • Иконка канала РЕН ТВ
    РЕН ТВ
  • Иконка канала СПАС
    СПАС
  • Иконка канала СТС
    СТС
  • Иконка канала Домашний
    Домашний
  • Иконка канала ТВ-3
    ТВ-3
  • Иконка канала Пятница
    Пятница
  • Иконка канала Звезда
    Звезда
  • Иконка канала МИР ТВ
    МИР ТВ
  • Иконка канала ТНТ
    ТНТ
  • Иконка канала МУЗ-ТВ
    МУЗ-ТВ
  • Иконка канала ЧЕ
    ЧЕ
  • Иконка канала Канал «Ю»
    Канал «Ю»
  • Иконка канала 2х2
    2х2
  • Иконка канала Кухня
    Кухня
  • Иконка канала viju
    viju


RUTUBE всегда с вами
Больше от RUTUBE
  • SMART TV
  • RUTUBE Детям
  • RUTUBE Спорт
  • RUTUBE Новости
RUTUBE в других соцсетях

  • Вопросы и ответы
  • Сообщить о проблеме
  • Написать в поддержку
  • О RUTUBE
  • Направления деятельности
  • Пользовательское соглашение
  • Конфиденциальность
  • Правовая информация
  • Рекомендательная система
  • Фирменный стиль

© 2025, RUTUBE

Как запустить в прод нейросеть: Triton Inference Server + TensorRT

В этом видео покажу как запускать нейросети в production с помощью Triton Inference Server. Лекция более чем на 90% состоит из практики! Мы разберем работу с моделями в формате ONNX, и TensorRT с помощью Тритона. Научимся конвертировать модели в TensorRT для ускорения инференса. Создадим асинхронное API на FastAPI для взаимодействия с Triton Inference Server. На практике рассмотрим динамический батчинг и масштабирование инстансов для повышения производительности. Покажу настройку мониторинга инференс сервера через Prometheus и Grafana. Также проведем нагрузочное тестирование API для оценки пропускной способности модели при разных размерах батча. Код из этого видео доступен по ссылке: https://github.com/Koldim2001/Triton_example Таймкоды из видео: 0:45 – Что такое ONNX формат модели 1:45 – Что такое Triton Inference Server и как он используется в продкшене 6:11 – Переводим модель из PyTorch в ONNX 8:31 – Как запустить ONNX модель в Тритоне 15:17 – Написание FastAPI приложения для асинхронной работы с Тритоном 30:52 – Что такое TensorRT 33:00 – Переводим модель из ONNX в TensorRT 39:03 – Настраиваем Prometheus и Grafana для визуализации метрик 53:18 – Сравниваем скорости моделей ONNX и TensorRT 57:53 – Тестируем работу инференс сервера при разных настройках 1:08:42 – Пример нагрузочного тестирования с использованием Locust Подписывайтесь на канал, чтобы быть в курсе новых видео и узнавать больше о машинном обучении и компьютерном зрении! #MLEngineering #AI #TritonServer #TensorRT #FastAPI #ProductionML #ONNX #Prometheus #Grafana #Тритон

Иконка канала Колесников Дмитрий
Колесников Дмитрий
106 подписчиков
12+
55 просмотров
2 месяца назад
28 апреля 2025 г.
ПожаловатьсяНарушение авторских прав

В этом видео покажу как запускать нейросети в production с помощью Triton Inference Server. Лекция более чем на 90% состоит из практики! Мы разберем работу с моделями в формате ONNX, и TensorRT с помощью Тритона. Научимся конвертировать модели в TensorRT для ускорения инференса. Создадим асинхронное API на FastAPI для взаимодействия с Triton Inference Server. На практике рассмотрим динамический батчинг и масштабирование инстансов для повышения производительности. Покажу настройку мониторинга инференс сервера через Prometheus и Grafana. Также проведем нагрузочное тестирование API для оценки пропускной способности модели при разных размерах батча. Код из этого видео доступен по ссылке: https://github.com/Koldim2001/Triton_example Таймкоды из видео: 0:45 – Что такое ONNX формат модели 1:45 – Что такое Triton Inference Server и как он используется в продкшене 6:11 – Переводим модель из PyTorch в ONNX 8:31 – Как запустить ONNX модель в Тритоне 15:17 – Написание FastAPI приложения для асинхронной работы с Тритоном 30:52 – Что такое TensorRT 33:00 – Переводим модель из ONNX в TensorRT 39:03 – Настраиваем Prometheus и Grafana для визуализации метрик 53:18 – Сравниваем скорости моделей ONNX и TensorRT 57:53 – Тестируем работу инференс сервера при разных настройках 1:08:42 – Пример нагрузочного тестирования с использованием Locust Подписывайтесь на канал, чтобы быть в курсе новых видео и узнавать больше о машинном обучении и компьютерном зрении! #MLEngineering #AI #TritonServer #TensorRT #FastAPI #ProductionML #ONNX #Prometheus #Grafana #Тритон

, чтобы оставлять комментарии