Pekiştirmeli Öğrenme – Politika Bazlı Yöntemler

Eğitim Detayları

Pekiştirmeli Öğrenme – Politika Bazlı Yöntemler Eğitimi, ODTÜ Teknokent'te bulunan Savunma Sanayii Akademi dersliklerinde ücretli olarak gerçekleştirilmektedir.
📩 Eğitim programı hakkında detaylı bilgi için: egitim@tregitim.com.tr adresiyle iletişime geçebilirsiniz.
Eğitim Hakkında
1. Gün Politika Bazlı Yöntemlerin Temelleri Politika bazlı ve değer tabanlı yöntemlerin karşılaştırılması. Sürekli eylem alanlarında politika bazlı öğrenmenin avantajları. Uygulama: Bir insansız hava aracının (İHA) sürekli kontrol probleminde politika bazlı yaklaşımın tanımlanması. Politika Gradyanları ve Optimizasyon Teknikleri Politika gradyan teoremi ve türevleri. Monte Carlo yöntemleri ve episodik öğrenme. Uygulama: Bir askeri manevra için temel bir politika gradyan algoritması uygulama. REINFORCE Algoritması REINFORCE algoritmasının detayları ve uygulama alanları. Yüksek varyans sorunları ve bunların üstesinden gelme yöntemleri. Uygulama: Bir hedef takip görevinde REINFORCE algoritmasıyla politika öğrenimi. Actor-Critic Mimarisine Giriş Actor ve Critic bileşenlerinin tanımı ve etkileşimi. Advantage Actor-Critic (A2C) ve Asenkron Advantage Actor-Critic (A3C) algoritmaları. Uygulama: Bir otonom deniz aracının navigasyonu için A2C algoritmasının uygulanması. 2. Gün Proximal Policy Optimization (PPO) ve Trust Region Policy Optimization (TRPO) PPO ve TRPO algoritmalarının prensipleri ve tercih edilme sebepleri. Kliplenmiş hedef fonksiyonlar ve güven bölgesi optimizasyonu. Uygulama: Savunma amaçlı bir simülasyonda PPO algoritmasıyla politika optimizasyonu. Derin Pekiştirmeli Öğrenmede Güncel Gelişmeler Soft Actor-Critic (SAC) ve Deep Deterministic Policy Gradient (DDPG) algoritmalarının tanıtımı. Uygulama: Sürekli kontrol gerektiren bir silah sisteminin optimizasyonu için DDPG uygulaması. Performans Değerlendirme ve Hiperparametre Optimizasyonu Politika bazlı yöntemlerde hiperparametrelerin rolü. Öğrenme oranı, entropi katsayısı ve diğer kritik hiperparametrelerin ayarlanması. Uygulama: Bir savunma senaryosunda modelin performansını artırmak için hiperparametre optimizasyonu. Mini Projeler Bir İHA'nın karmaşık manevralarını öğrenmesi için PPO algoritmasıyla model geliştirme. Otonom bir kara aracının engelleri aşması için Actor-Critic mimarisi uygulama. Sürekli eylem alanında bir silah sisteminin kontrolü için DDPG algoritmasıyla derin RL modeli oluşturma.