Područje strojnog učenja obuhvaća različite metodologije i paradigme, od kojih svaka odgovara različitim vrstama podataka i problemima. Među tim paradigmama, nadzirano i nenadzirano učenje su dvije od najosnovnijih.
Nadzirano učenje uključuje obuku modela na označenom skupu podataka, gdje su ulazni podaci upareni s točnim izlazom. Model uči mapirati ulaze u izlaze minimiziranjem pogreške između svojih predviđanja i stvarnih izlaza. Učenje bez nadzora, s druge strane, bavi se neoznačenim podacima, gdje je cilj zaključiti prirodnu strukturu koja je prisutna unutar skupa podatkovnih točaka.
Postoji vrsta učenja koja integrira nadzirane i nenadzirane tehnike učenja, često se naziva polunadzirano učenje. Ovaj pristup koristi i označene i neoznačene podatke tijekom procesa obuke. Obrazloženje iza polu-nadziranog učenja je da neoznačeni podaci, kada se koriste zajedno s malom količinom označenih podataka, mogu proizvesti značajno poboljšanje u točnosti učenja. Ovo je osobito korisno u scenarijima gdje su označeni podaci rijetki ili skupi za dobivanje, ali neoznačenih podataka ima u izobilju i lako ih je prikupiti.
Polu-nadzirano učenje temelji se na pretpostavci da temeljna struktura neoznačenih podataka može pružiti vrijedne informacije koje su komplementarne označenim podacima. Ova pretpostavka može poprimiti nekoliko oblika, kao što je pretpostavka klastera, pretpostavka razvodnika ili pretpostavka niske gustoće razdvajanja. Pretpostavka klastera pretpostavlja da će podatkovne točke u istom klasteru vjerojatno imati istu oznaku. Pretpostavka o mnogostrukosti sugerira da visokodimenzionalni podaci leže na mnogostrukoj mnogo nižoj dimenzionalnosti, a zadatak je naučiti ovu mnogostrukost. Pretpostavka odvajanja niske gustoće temelji se na ideji da bi granica odluke trebala ležati u području niske gustoće podataka.
Jedna od uobičajenih tehnika koja se koristi u polu-nadziranom učenju je samoobuka. U samoobuci, model se inicijalno obučava na označenim podacima. Zatim koristi vlastita predviđanja na neoznačenim podacima kao pseudooznake. Model se dalje uvježbava na ovom proširenom skupu podataka, iterativno usavršavajući svoja predviđanja. Druga tehnika je zajedničko treniranje, gdje se dva ili više modela istovremeno obučavaju na različitim pogledima na podatke. Svaki model odgovoran je za označavanje dijela neoznačenih podataka, koji se zatim koriste za obuku ostalih modela. Ova metoda iskorištava redundanciju u višestrukim prikazima podataka za poboljšanje izvedbe učenja.
Metode temeljene na grafikonima također prevladavaju u polu-nadziranom učenju. Ove metode konstruiraju graf gdje čvorovi predstavljaju podatkovne točke, a rubovi predstavljaju sličnosti među njima. Zadatak učenja se zatim preformulira kao optimizacijski problem temeljen na grafu, gdje je cilj prenijeti oznake od označenih čvorova do neoznačenih uz očuvanje strukture grafa. Ove tehnike su posebno učinkovite u domenama gdje podaci prirodno tvore mrežu, kao što su društvene mreže ili biološke mreže.
Drugi pristup kombiniranju nadziranog i nenadziranog učenja jest učenje s više zadataka. U učenju s više zadataka, više zadataka učenja rješava se istovremeno, dok se iskorištavaju sličnosti i razlike između zadataka. Ovo se može promatrati kao oblik induktivnog prijenosa, gdje znanje stečeno iz jednog zadatka pomaže u poboljšanju učenja drugog. Učenje s više zadataka može biti posebno korisno kada među zadacima postoji zajednički prikaz ili prostor za značajke, što omogućuje prijenos informacija.
Praktičan primjer polu-nadziranog učenja je u području obrade prirodnog jezika (NLP). Razmotrimo zadatak analize osjećaja, gdje je cilj klasificirati dati tekst kao pozitivan ili negativan. Označeni podaci, kao što su recenzije s oznakama mišljenja, mogu biti ograničeni. Međutim, dostupna je ogromna količina neoznačenog teksta. Polu-nadzirani pristup učenju mogao bi uključivati obuku klasifikatora sentimenta na označenim podacima i njegovu upotrebu za predviđanje sentimenta neoznačenih podataka. Ta se predviđanja zatim mogu koristiti kao dodatni podaci za obuku, poboljšavajući izvedbu klasifikatora.
Drugi primjer može se naći u klasifikaciji slika. U mnogim je slučajevima dobivanje označenih slika zahtjevno i skupo, dok neoznačenih slika ima u izobilju. Polu-nadzirani pristup može uključivati korištenje malog skupa označenih slika za obuku početnog modela. Ovaj se model zatim može primijeniti na neoznačene slike za generiranje pseudooznaka, koje se kasnije koriste za ponovno uvježbavanje modela.
Integracija nadziranog i nenadziranog učenja putem polunadziranog učenja i srodnih metodologija predstavlja snažan pristup strojnom učenju. Iskorištavanjem prednosti obiju paradigmi moguće je postići značajna poboljšanja u izvedbi modela, osobito u domenama gdje su označeni podaci ograničeni, ali neoznačenih ima u izobilju. Ovaj pristup ne samo da poboljšava sposobnost modela da generaliziraju ograničene podatke, već također pruža robusniji okvir za razumijevanje temeljne strukture složenih skupova podataka.
Ostala nedavna pitanja i odgovori u vezi EITC/AI/GCML Google Cloud Machine Learning:
- Spomenuli ste mnoge vrste algoritama poput linearne regresije, stabla odlučivanja. Jesu li to sve neuronske mreže?
- Koje su metrike procjene izvedbe modela?
- Što je linearna regresija?
- Je li moguće kombinirati različite ML modele i izgraditi master AI?
- Koji su neki od najčešćih algoritama koji se koriste u strojnom učenju?
- Kako izraditi verziju modela?
- Kako primijeniti 7 koraka ML-a u kontekstu primjera?
- Kako se strojno učenje može primijeniti na podatke o građevinskim dozvolama?
- Zašto su AutoML tablice ukinute i što ih nasljeđuje?
- Koji je zadatak tumačenja crteža koje crtaju igrači u kontekstu umjetne inteligencije?
Pogledajte više pitanja i odgovora u EITC/AI/GCML Google Cloud Machine Learning
Još pitanja i odgovora:
- Polje: Umjetna inteligencija
- Program: EITC/AI/GCML Google Cloud Machine Learning (idite na program certifikacije)
- Lekcija: Uvod (idi na povezanu lekciju)
- Tema: Što je strojno učenje (idi na srodnu temu)