EITC/AI/ARL Advanced Reinforcement Learning europski je program IT certifikacije za DeepMindov pristup učenju s potkrepljenjem u umjetnoj inteligenciji.
Kurikulum EITC/AI/ARL Advanced Reinforcement Learning fokusiran je na teorijske aspekte i praktične vještine u tehnikama učenja s potkrepljenjem iz perspektive DeepMinda organiziranog unutar sljedeće strukture, koja obuhvaća sveobuhvatan video didaktički sadržaj kao referencu za ovu EITC certifikaciju.
Pojačano učenje (RL) područje je strojnog učenja zabrinutog kako bi inteligentni agenti trebali poduzimati radnje u okruženju kako bi maksimizirali pojam kumulativne nagrade. Pojačano učenje jedna je od tri osnovne paradigme strojnog učenja, uz nadzirano i nenadgledano učenje.
Učenje s pojačavanjem razlikuje se od učenja pod nadzorom po tome što nije potrebno prezentirati označene ulazno/izlazne parove i što ne treba eksplicitno ispravljati neoptimalne radnje. Umjesto toga, fokus je na pronalaženju ravnoteže između istraživanja (neistraženog teritorija) i eksploatacije (trenutačnog znanja).
Okruženje se obično navodi u obliku Markovljevog procesa odlučivanja (MDP), jer mnogi algoritmi učenja s pojačanjem za ovaj kontekst koriste tehnike dinamičkog programiranja. Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama učenja s pojačavanjem je u tome što potonji ne pretpostavljaju poznavanje točnog matematičkog modela MDP-a i ciljaju na velike MDP-ove gdje egzaktne metode postaju neizvedive.
Zbog svoje općenitosti, učenje s pojačanjem proučava se u mnogim disciplinama, kao što su teorija igara, teorija upravljanja, istraživanje operacija, teorija informacija, optimizacija temeljena na simulaciji, sustavi s više agenata, inteligencija roja i statistika. U literaturi za istraživanje i kontrolu operacija učenje s pojačanjem naziva se približno dinamičko programiranje ili neurodinamičko programiranje. Problemi od interesa za učenje s pojačanjem također su proučavani u teoriji optimalnog upravljanja, koja se uglavnom bavi postojanjem i karakterizacijom optimalnih rješenja i algoritama za njihovo točno izračunavanje, a manje učenjem ili aproksimacijom, osobito u nedostatku matematički model okoline. U ekonomiji i teoriji igara učenje s pojačanjem može se koristiti za objašnjenje kako ravnoteža može nastati pod ograničenom racionalnošću.
Osnovna armatura je modelirana kao Markovljev proces odlučivanja (MDP). U matematici, Markovljev proces odlučivanja (MDP) je stohastički kontrolni proces s diskretnim vremenom. Pruža matematički okvir za modeliranje donošenja odluka u situacijama u kojima su ishodi dijelom nasumični, a dijelom pod kontrolom donositelja odluka. MDP-ovi su korisni za proučavanje problema optimizacije riješenih dinamičkim programiranjem. MDP-ovi su bili poznati barem još 1950-ih. Temeljni skup istraživanja o Markovljevim procesima odlučivanja proizašao je iz knjige Ronalda Howarda iz 1960. Dinamičko programiranje i Markovljevi procesi. Koriste se u mnogim disciplinama, uključujući robotiku, automatsko upravljanje, ekonomiju i proizvodnju. Naziv MDP-ova potječe od ruskog matematičara Andreja Markova jer su oni produžetak Markovljevih lanaca.
U svakom vremenskom koraku postupak je u nekom stanju S, a donositelj odluke može odabrati bilo koju radnju a koja je dostupna u stanju S. Proces odgovara u sljedećem vremenskom koraku nasumičnim premještanjem u novo stanje S 'i daje donositelj odluke odgovarajuću nagradu Ra (S, S ').
Odabrano djelovanje a utječe na vjerojatnost da proces prijeđe u svoje novo stanje S'. Konkretno, zadana je funkcijom prijelaza stanja Pa(S,S'). Dakle, sljedeće stanje S' ovisi o trenutnom stanju S i radnji donositelja odluke a. Ali s obzirom na S i a, ono je uvjetno neovisno o svim prethodnim stanjima i radnjama. Drugim riječima, prijelazi stanja MDP-a zadovoljavaju Markovljevo svojstvo.
Markovski procesi odlučivanja produžetak su markovskih lanaca; razlika je u dodavanju radnji (dopuštanje izbora) i nagrada (davanje motivacije). Suprotno tome, ako postoji samo jedna radnja za svako stanje (npr. „Pričekaj“) i sve su nagrade iste (npr. „Nula“), postupak odluke Markova svodi se na lanac Markova.
Agent za učenje s pojačanjem stupa u interakciju sa svojim okruženjem u diskretnim vremenskim koracima. U svakom trenutku t, agent prima trenutno stanje S(t) i nagradu r(t). Zatim bira akciju a(t) iz skupa dostupnih akcija, koja se zatim šalje u okolinu. Okolina prelazi u novo stanje S(t+1) i određuje se nagrada r(t+1) povezana s prijelazom. Cilj je agenta za učenje s pojačanjem naučiti politiku koja maksimizira očekivanu kumulativnu nagradu.
Formuliranje problema kao MDP pretpostavlja da agent izravno promatra trenutno stanje okoliša. U ovom slučaju se kaže da problem ima punu vidljivost. Ako agent ima pristup samo podskupu stanja, ili ako su promatrana stanja oštećena bukom, kaže se da agent ima djelomičnu vidljivost, a formalno se problem mora formulirati kao djelomično vidljiv Markovljev proces odlučivanja. U oba slučaja, skup akcija dostupnih agentu može biti ograničen. Na primjer, stanje stanja računa može se ograničiti na pozitivno; ako je trenutna vrijednost stanja 3 i prijelaz stanja pokušava smanjiti vrijednost za 4, prijelaz neće biti dopušten.
Kada se učinak agenta uspoređuje s učinkom agenta koji djeluje optimalno, razlika u učinku daje pojam žaljenja. Da bi se ponašao približno optimalno, agent mora razmišljati o dugoročnim posljedicama svojih postupaka (tj. Maksimizirati budući prihod), iako bi neposredna nagrada povezana s tim mogla biti negativna.
Stoga je učenje s pojačanjem posebno pogodno za probleme koji uključuju dugoročnu u odnosu na kratkoročnu nagradu. Uspješno je primijenjen na različite probleme, uključujući upravljanje robotima, zakazivanje dizala, telekomunikacije, backgammon, dame i Go (AlphaGo).
Dva elementa čine učenje s pojačanjem snažnim: korištenje uzoraka za optimizaciju izvedbe i korištenje aproksimacije funkcije za rad s velikim okruženjima. Zahvaljujući ove dvije ključne komponente, učenje s pojačanjem može se koristiti u velikim okruženjima u sljedećim situacijama:
- Poznat je model okoliša, ali analitičko rješenje nije dostupno.
- Dat je samo simulacijski model okoliša (predmet optimizacije temeljenog na simulaciji).
- Jedini način prikupljanja podataka o okolišu je interakcija s njim.
Prva dva od ovih problema mogla bi se smatrati problemima planiranja (budući da je dostupan neki oblik modela), dok bi se posljednji mogao smatrati istinskim problemom učenja. Međutim, učenje pojačavanjem oba problema planiranja pretvara u probleme strojnog učenja.
Kompromis istraživanja i eksploatacije najtemeljitije je proučavan kroz problem s više naoružanih bandita i za MDP konačnog stanja u Burnetas i Katehakis (1997).
Učenje s pojačanjem zahtijeva pametne mehanizme istraživanja; nasumično odabiranje radnji, bez pozivanja na procijenjenu distribuciju vjerojatnosti, pokazuje lošu izvedbu. Slučaj (malih) konačnih Markovljevih procesa odlučivanja je relativno dobro shvaćen. Međutim, zbog nedostatka algoritama koji dobro skaliraju s brojem stanja (ili skaliraju na probleme s beskonačnim prostorima stanja), jednostavne metode istraživanja su najpraktičnije.
Čak i ako se pitanje istraživanja zanemari, pa čak i ako je država bila vidljiva, problem ostaje koristiti prošla iskustva kako bi se otkrilo koje radnje dovode do većih kumulativnih nagrada.
Da biste se detaljno upoznali s nastavnim planom i programom certificiranja, možete proširiti i analizirati donju tablicu.
EITC/AI/ARL Certification Advanced Reinforcement Learning Curriculum navodi didaktičke materijale otvorenog pristupa u obliku videa. Proces učenja podijeljen je u strukturu korak po korak (programi -> lekcije -> teme) koja pokriva relevantne dijelove kurikuluma. Također je osigurano neograničeno savjetovanje sa stručnjacima za domenu.
Za detalje o postupku certificiranja provjerite Kako radi.
Referentni resursi za kurikulum
Kontrola na ljudskoj razini putem publikacije Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Otvoreni tečaj o učenju dubokih pojačanja na UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL primijenjen na problem razbojnika K-armbed iz Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Preuzmite kompletne izvanmrežne pripremne materijale za samoučenje za EITC/AI/ARL napredni program učenja za pojačanje u PDF datoteci
EITC/AI/ARL pripremni materijali – standardna verzija
EITC/AI/ARL pripremni materijali – proširena verzija s pitanjima za ponavljanje