RUTUBE
Добавить
Уведомления
  • Главная
  • RUTUBE для блогеров
  • Каталог
  • Популярное
  • В топе
  • Shorts
  • ТВ онлайн
  • Трансляции
  • Моё
  • Фильмы
  • RUTUBE x PREMIER

Войдите, чтобы подписываться на каналы, комментировать видео и оставлять реакции


  • Подписки
  • История просмотра
  • Плейлисты
  • Смотреть позже
  • Комментарии

  • Авто
  • Анимация
  • Блогеры
  • Видеоигры
  • Детям
  • Еда
  • Интервью
  • Команда R
  • Культура
  • Лайфхаки
  • Музыка
  • Новости и СМИ
  • Обучение
  • Оriginals
  • Подкасты
  • Путешествия
  • Радио
  • Разговоры о важном
  • Сельское хозяйство
  • Сериалы
  • Спорт
  • Телешоу
  • Фонды помощи
  • Футбол
  • Юмор
Телеканалы
  • Иконка канала Первый канал
    Первый канал
  • Иконка канала Россия 1
    Россия 1
  • Иконка канала МАТЧ
    МАТЧ
  • Иконка канала НТВ
    НТВ
  • Иконка канала Пятый канал
    Пятый канал
  • Иконка канала Телеканал Культура
    Телеканал Культура
  • Иконка канала Россия 24
    Россия 24
  • Иконка канала ТВЦ
    ТВЦ
  • Иконка канала РЕН ТВ
    РЕН ТВ
  • Иконка канала СПАС
    СПАС
  • Иконка канала СТС
    СТС
  • Иконка канала Домашний
    Домашний
  • Иконка канала ТВ-3
    ТВ-3
  • Иконка канала Пятница
    Пятница
  • Иконка канала Звезда
    Звезда
  • Иконка канала МИР ТВ
    МИР ТВ
  • Иконка канала ТНТ
    ТНТ
  • Иконка канала МУЗ-ТВ
    МУЗ-ТВ
  • Иконка канала ЧЕ
    ЧЕ
  • Иконка канала Канал «Ю»
    Канал «Ю»
  • Иконка канала 2х2
    2х2
  • Иконка канала Кухня
    Кухня
  • Иконка канала viju
    viju


RUTUBE всегда с вами
Больше от RUTUBE
  • SMART TV
  • RUTUBE Детям
  • RUTUBE Спорт
  • RUTUBE Новости
RUTUBE в других соцсетях

  • Вопросы и ответы
  • Сообщить о проблеме
  • Написать в поддержку
  • О RUTUBE
  • Направления деятельности
  • Пользовательское соглашение
  • Конфиденциальность
  • Правовая информация
  • Рекомендательная система
  • Фирменный стиль

© 2025, RUTUBE

Лекция №15 "Обучение с подкреплением"

Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для восьмого потока обучения. Преподаватель: Любовь Антюфриева Дата: 19.02.2025 00:00 Заставка 00:45 Обучение методом проб и ошибок 01:58 Мотивация использования обучения с подкреплением 05:41 Устоявшаяся терминология 06:47 Примеры задач, решаемых с использованием RL 15:02 Stateless environment in RL 15:38 Задача о многоруких бандитах 16:31 Gymnasium framework 26:28 Поиск оптимальной стратегии решения 35:36 Метаэвристики в обучении с подкреплением 36:11 Cross-entropy method (CEM) 40:41 Пример CEM в Gym 45:22 Марковский процесс принятия решений (Markov decision process, MDP) 48:43 Markov process 01:05:11 Проблема поиска оптимальной политики 01:14:45 Поиск оптимальной политики Беллмана для MDP (решение "MDP") 01:24:17 Temporal difference (TD)-обучение (TD-learning) 01:27:15 Q-Learning 01:33:43 Deep Q-Learning Материалы лекции: Открыть в Colab: https://colab.research.google.com/drive/1Vi2o2PHgvKEsFofrTm2vPweZFkYXekfh Открыть в HTML: https://msu.ai/reinforcement_learning_notebook_new Сайт: https://msu.ai VK: https://vk.com/msu_ai Telegram: https://t.me/msu_ai_channel #МГУ #искусственный_интеллект #нейронные_сети #neural_networks #science #наука #научные_исследования #нейронные_сети_в_науке #как_применять_нейронные_сети #курс_для_студентов_МГУ #наука_и_исследования

Иконка канала MSU_AI
MSU_AI
290 подписчиков
12+
33 просмотра
15 дней назад
19 июня 2025 г.
ПожаловатьсяНарушение авторских прав

Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для восьмого потока обучения. Преподаватель: Любовь Антюфриева Дата: 19.02.2025 00:00 Заставка 00:45 Обучение методом проб и ошибок 01:58 Мотивация использования обучения с подкреплением 05:41 Устоявшаяся терминология 06:47 Примеры задач, решаемых с использованием RL 15:02 Stateless environment in RL 15:38 Задача о многоруких бандитах 16:31 Gymnasium framework 26:28 Поиск оптимальной стратегии решения 35:36 Метаэвристики в обучении с подкреплением 36:11 Cross-entropy method (CEM) 40:41 Пример CEM в Gym 45:22 Марковский процесс принятия решений (Markov decision process, MDP) 48:43 Markov process 01:05:11 Проблема поиска оптимальной политики 01:14:45 Поиск оптимальной политики Беллмана для MDP (решение "MDP") 01:24:17 Temporal difference (TD)-обучение (TD-learning) 01:27:15 Q-Learning 01:33:43 Deep Q-Learning Материалы лекции: Открыть в Colab: https://colab.research.google.com/drive/1Vi2o2PHgvKEsFofrTm2vPweZFkYXekfh Открыть в HTML: https://msu.ai/reinforcement_learning_notebook_new Сайт: https://msu.ai VK: https://vk.com/msu_ai Telegram: https://t.me/msu_ai_channel #МГУ #искусственный_интеллект #нейронные_сети #neural_networks #science #наука #научные_исследования #нейронные_сети_в_науке #как_применять_нейронные_сети #курс_для_студентов_МГУ #наука_и_исследования

, чтобы оставлять комментарии