Takviyeli öğrenme bir tür makine öğrenme Ödüller ve cezalar üzerine kuruludur. Bu makale tanımlarını, nasıl çalıştıklarını ve temel uygulamalarını açıklamaktadır.
Takviyeli öğrenmenin tanımı
programlar kullanılır yapay zeka (AI) Hızı ve verimliliği artırmak için sürekli makine öğrenimi. Takviyeli öğrenmede, AI istenen eylemler için ödüllendirilir ve istenmeyen eylemler için cezalandırılır.
Bu öğrenme ancak kontrollü bir ortamda gerçekleşebilir. Programcı, belirli davranışlara pozitif ve negatif değerler (veya "puanlar") atar ve yapay zeka, ödüller almak ve cezalardan kaçınmak için çevreyi özgürce keşfedebilir.
İdeal olarak, AI kısa vadeli kazanımları uzun vadeli kazanımlar lehine erteler, bu nedenle 10 dakikada XNUMX puan kazanmak veya XNUMX dakikada XNUMX puan kazanmak arasında seçim yaparsa, bu tatmini geciktirir ve daha yüksek değere gider. . Aynı zamanda puan kaybetmesine neden olan cezai önlemlerden kaçınmayı da öğrenecektir.
Takviyeli öğrenme örnekleri
Takviyeli öğrenmeye dayalı yapay zekanın gerçek dünyadaki uygulamaları biraz sınırlıdır, ancak yöntem laboratuvar deneylerinde umut verici sonuçlar göstermiştir.
Örneğin, bu öğrenme yapay zekayı video oyunları oynaması için eğitti. AI, oyunun hedeflerine nasıl ulaşılacağını deneme yanılma yoluyla öğrenir. Örneğin, Super Mario Bros gibi bir oyunda. AI, düşmanlardan ve engellerden kaçınırken her seviyenin sonuna ulaşmanın en iyi yolunu belirleyecektir. Düzinelerce AI programı, belirli oyunları başarıyla alt etti ve MuZero, orijinal olarak oynamak için tasarlanmamış video oyunlarında ustalaştı.
Bu öğrenme, en iyi uzun vadeli sonuçları elde etmek için iş kaynaklarını tahsis etmek üzere Kurumsal Kaynak Yönetimi (ERM) yazılımını eğitmek için kullanılmıştır. Takviyeli öğrenme algoritmaları, robotları yürümek ve diğer fiziksel görevleri yerine getirmek üzere eğitmek için kullanılmıştır. Bu öğrenme ayrıca istatistik, simülasyon, mühendislik, üretim ve tıbbi araştırmalarda umut verici sonuçlar verdi.
sınırları
Takviyeli öğrenme algoritmalarının ana sınırlaması, kapalı bir ortama bağımlılıklarıdır. Örneğin bir robot, her şeyin sabit olduğu bir odada gezinmek için bunu kullanabilir. Ancak bu öğrenme, hareket eden insanlarla dolu bir koridorda gezinmenize yardımcı olmayacaktır çünkü ortam sürekli değişmektedir. Robot, çevresinin net bir resmini geliştirmeden nesnelere amaçsızca çarpacaktır.
Bu öğrenme deneme yanılmaya dayalı olduğundan, daha fazla zaman ve kaynak tüketebilir. Artı tarafta, takviyeli öğrenme çok fazla insan denetimi gerektirmez.
Sınırlamaları nedeniyle, genellikle diğer makine öğrenimi türleriyle birleştirilir. Örneğin kendi kendine giden araçlar, çarpışmadan yollarda gezinmek için kendi algoritmalarını denetimli öğrenme gibi diğer makine öğrenimi teknikleriyle birlikte kullanır.
algoritma türleri
Takviyeli öğrenme algoritmaları iki ana kategoriye ayrılabilir: model tabanlı veya modelsiz. Model tabanlı bir algoritma, olası eylemlerin ödüllerini tahmin etmek için ortamının bir modelini geliştirir. Modelsiz pekiştirmeli öğrenmede, AI aracısı doğrudan deneme yanılma yoluyla öğrenir.
Model tabanlı algoritmalar, amacın aynı eylemi tekrar tekrar yapmak olduğu montaj hattı gibi simülasyonlar ve statik ortamlar için idealdir. Model tabanlı algoritmalarının örnekleri arasında, bir yapay zeka aracısının en iyi eylem planını belirlemek için katı bir formül (veya "politika") izlediği değer yinelemesi ve politika yinelemesi yer alır.
Modelden bağımsız algoritmalar, daha dinamik gerçek dünya durumları için kullanışlıdır. Modelsiz öğrenmeye bir örnek, önceki eylemlere ve sonuçlara dayalı olarak sonuçları tahmin etmek için bir sinir ağı kullanan Deep Q-Network (DQN) algoritmasıdır. DQN uygulamaları, büyük binalarda borsa tahmininden hava kalitesi düzenlemesine kadar uzanır.
Bu öğrenmede, bir AI ajanının insanların eylemlerini gözlemleyerek öğrendiği, tersine pekiştirmeli öğrenme adı verilen bir varyasyon vardır.
Sıkça Sorulan Sorular:
S1: Q-Öğrenme nedir?
Cevap: Q-Learning, modelden bağımsız algoritmalar için başka bir terimdir. Bu özel takviyeli öğrenme türü, onun hakkında tahminlerde bulunmak için bir çevre modeline ihtiyaç duymaz; Farklı ülkeler tarafından alınan önlemleri “öğrenmeyi” amaçlar.
S2: Takviyeli öğrenmedeki politika nedir?
Cevap: Politika, öğrenme sisteminin sorunları çözmek için kullandığı bir plandır. Neyi ne zaman yapacağını elindeki bilgilere ve ulaşmaya çalıştığı çözüme göre belirler.