AutoML Vision je proizvod strojnog učenja koji je razvio Google Cloud, a posebno je dizajniran za izgradnju prilagođenih modela za klasifikaciju, otkrivanje i interpretaciju slikovnih podataka. Njegova osnovna funkcionalnost usmjerena je na automatizaciju procesa treniranja, evaluacije i implementacije modela dubokog učenja za zadatke temeljene na slikama, kao što su klasifikacija slika, otkrivanje objekata i segmentacija slika. Kako bi se utvrdilo može li se AutoML Vision prilagoditi analizi tipova podataka koji nisu slike, potrebno je ispitati njegovu arhitekturu, modalitete unosa i širi kontekst AutoML ponuda Google Clouda.
Vizija AutoML-a: Opseg i dizajn
AutoML Vision funkcionira na pretpostavci automatizirane analize slika. Njegovo korisničko sučelje, mehanizmi unosa podataka, koraci predobrade, arhitekture modela i metrike evaluacije prilagođeni su vizualnim podacima. Usluga očekuje ulazne podatke u obliku slikovnih datoteka (npr. JPEG, PNG) i odgovarajućih oznaka za zadatke nadziranog učenja. Korisnik prenosi skupove podataka slika putem Google Cloud Consolea ili API-ja, određuje željeni zadatak (klasifikaciju ili detekciju objekata), a sustav upravlja dijeljenjem podataka, izdvajanjem značajki, odabirom modela, podešavanjem hiperparametara i procesom obuke bez potrebe za dubinskim stručnim znanjem strojnog učenja od strane korisnika.
Temeljni tehnološki paket koristi konvolucijske neuronske mreže (CNN) i srodne arhitekture, koje su posebno vješte u izdvajanju značajki iz prostorno koreliranih podataka, poput nizova piksela na slikama. Izlaz iz AutoML Visiona obično je obučeni model koji se može koristiti za predviđanje klasa slika ili koordinata okvira za neviđene slike.
Analiza tipova podataka
S obzirom na specifičnost dizajna AutoML Visiona, njegova korisnost je ograničena na podatke tipa slike. Pokušaj unosa podataka koji nisu slike (kao što su tablični podaci, podaci vremenskih serija, audio datoteke ili tekstualni dokumenti) rezultirao bi nekompatibilnošću na više slojeva, počevši od unosa podataka do obrade modela. Sustav ne pruža mehanizme za parsiranje, inženjering značajki ili modeliranje na podacima koji nisu slike.
Na primjer, pretpostavimo da korisnik pokušava prenijeti CSV datoteku koja predstavlja tablične podatke (kao što su transakcije kupaca ili očitanja senzora) u AutoML Vision. Usluga ne bi prihvatila ovaj format jer ga ne prepoznaje kao valjani unos slike. Čak i ako bi se tablični podaci nekako pretvorili u format slike (npr. renderiranjem toplinske karte ili grafikona i spremanjem kao PNG), semantičko značenje podataka ne bi bilo sačuvano, a obučeni modeli ne bi bili prikladni za izvorne analitičke ciljeve povezane s tabličnim podacima.
Slično tome, audio podaci (poput govora ili zvukova iz okoline) ili tekstualni podaci (dokumenti, e-poruke, objave na društvenim mrežama) zahtijevaju specijaliziranu predobradu i arhitekture modela. Iako postoje istraživačke tehnike koje pretvaraju audio signale u spektrogramske slike za analizu temeljenu na CNN-u ili kodiraju tekstualne podatke kao matrice slične slikama, AutoML Vision izvorno ne podržava te pristupe, a njihova implementacija zahtijevala bi prilagođeni cjevovod predobrade izvan opsega predviđene upotrebe proizvoda.
AutoML obitelj: Modaliteti izvan slika
Iako je AutoML Vision ograničen na slikovne podatke, Google Cloud AutoML obuhvaća niz proizvoda, od kojih je svaki prilagođen različitim vrstama podataka:
1. Tablice AutoMLDizajnirano za strukturirane, tablične podatke kao što su proračunske tablice, baze podataka i CSV datoteke. AutoML Tables pruža automatizirano inženjerstvo značajki, odabir modela (uključujući pojačavanje gradijenta, slučajne šume i neuronske mreže) i metrike evaluacije prikladne za zadatke regresije i klasifikacije na tabličnim podacima.
2. Prirodni jezik AutoMLNamijenjeno za tekstualne podatke, podržava zadatke poput analize sentimenta, izdvajanja entiteta i klasifikacije teksta. Koristi modele obrade prirodnog jezika (NLP) optimizirane za interpretaciju na razini dokumenata i rečenica.
3. AutoML video inteligencijaNamijenjeno za video podatke, omogućujući zadatke poput klasifikacije videa, praćenja objekata i prepoznavanja radnji. Koristi tehnike vremenskog i prostornog modeliranja.
4. Automatski prijevodOmogućuje automatizirano učenje prilagođenih modela prevođenja za tekstualne podatke na različitim jezicima.
Svaki od ovih AutoML proizvoda dijeli sveobuhvatni cilj demokratizacije strojnog učenja automatizacijom složenih koraka uključenih u razvoj modela. Međutim, svaki je arhitekturiran za jedinstvene zahtjeve i izazove koje predstavlja njegov odgovarajući način rada s podacima.
Didaktički primjer: Slučajevi upotrebe i odabir proizvoda
Razmotrimo tvrtku koja želi automatizirati kontrolu kvalitete u proizvodnom procesu pregledom slika proizvoda na nedostatke. AutoML Vision je idealan za ovaj slučaj upotrebe, jer se može obučiti za prepoznavanje suptilnih razlika u izgledu proizvoda te klasificiranje ili lociranje nedostataka. Korisnik prenosi označeni skup podataka slika proizvoda, a AutoML Vision obrađuje model za otkrivanje nedostataka.
Usporedite to sa scenarijem u kojem tvrtka želi predvidjeti odljev kupaca na temelju strukturiranih podataka kao što su demografski podaci, povijest kupnje i metrike angažmana. U ovom slučaju, podaci su u potpunosti nevizualni i najbolje su predstavljeni u tablicama. AutoML tablice su odgovarajući alat jer mogu obrađivati tablične podatke, izvoditi automatsko inženjerstvo značajki (npr. rukovanje nedostajućim vrijednostima, kodiranje kategoričkih varijabli) i odabrati optimalne modele za klasifikaciju.
Za analizu zvuka, poput klasifikacije zvukova iz okoline ili transkripcije govora, Google Cloud pruža usluge poput Speech-to-Text i AutoML Natural Language (za analizu teksta), ali AutoML Vision ne bi bio prikladan osim ako se audio podaci prvo ne transformiraju u format slike (kao što je spektrogram), a čak i tada bi rezultati uvelike ovisili o prikladnosti takvog inženjerstva značajki za analitički cilj.
Tehnička perspektiva: Zašto se AutoML vizija ne može proširiti na podatke koji nisu slike
Arhitektonska specijalizacija AutoML Visiona ukorijenjena je u nekoliko tehničkih aspekata:
- Sloj za unos podatakaAPI-ji i korisnička sučelja AutoML Visiona dizajnirani su za unos slikovnih datoteka u određenim formatima. Ne postoji mogućnost parsiranja formata podataka koji nisu slike.
- Cjevovod za pretprocesiranjeKoraci predobrade prilagođeni su slikama, uključujući promjenu veličine, normalizaciju vrijednosti piksela i tehnike proširenja podataka poput rotacije, okretanja i izrezivanja. Podaci koji nisu slike nemaju koristi od takvih transformacija.
- Arhitektura modelaArhitekture modela (CNN-ovi, moguće s prilagođenim slojevima za detekciju ili segmentaciju) dizajnirane su za iskorištavanje prostorne lokalnosti i invarijantnosti u slikovnim podacima. Podaci koji nisu slikovni, poput tablice prodajnih zapisa, nemaju ta svojstva i stoga ne bi bili prikladni za takve modele.
- Označavanje i evaluacijaAlati za označavanje i metrike evaluacije (točnost, preciznost, prisjetljivost za klase slika; srednja prosječna preciznost za detekciju objekata) definirani su oko zadataka temeljenih na slikama.
- Izvoz i implementacijaModeli obučeni u AutoML Visionu izvoze se u formate prikladne za zaključivanje o slikama (npr. TensorFlow SavedModel, Edge TPU). Ulazni potpisi očekuju slike kao ulaz.
Iz tih razloga, AutoML Vision se ne može prilagoditi za analizu podataka koji nisu slike bez temeljne promjene infrastrukture za predobradu, modeliranje i implementaciju, u kojem slučaju bi prestao biti AutoML Vision u svom trenutnom obliku.
Najbolje prakse: Odabir ispravnog AutoML proizvoda
Prilikom pristupanja problemu strojnog učenja, tip podataka trebao bi voditi odabir odgovarajućeg AutoML proizvoda:
– Za slikovne podatke (npr. fotografije, medicinske snimke, satelitske snimke): Koristite AutoML Vision.
– Za strukturirane tablične podatke (npr. proračunske tablice, tablice baze podataka): Koristite AutoML tablice.
– Za tekst slobodnog oblika ili strukturirani tekst (npr. dokumenti, recenzije, e-poruke): Koristite AutoML prirodni jezik.
– Za videozapise (npr. snimke nadzornih kamera, sportske snimke): Koristite AutoML Video Intelligence.
– Za zadatke prevođenja: Koristite AutoML prevođenje.
Pokušaj korištenja proizvoda izvan predviđenog načina obrade podataka dovodi do neoptimalnih rezultata, problema s nekompatibilnošću ili potpunog neuspjeha u obradi podataka.
Primjeri prilagodbe modela unutar AutoML Visiona
Iako je prilagođena upotreba unutar AutoML Visiona moguća u smislu definiranja prilagođenih oznaka, određivanja prilagođenih podjela slika i prilagođavanja kriterija evaluacije, te su prilagodbe ograničene na podatke o slici. Na primjer, istraživač koji proučava biljne bolesti mogao bi prenijeti slike listova kategorizirane prema vrsti bolesti i prilagoditi podjelu za obuku i validaciju ili proširiti slike transformacijama specifičnim za domenu (npr. prilagođavanjem kanala boja za simulaciju različitih uvjeta osvjetljenja). Ove prilagodbe poboljšavaju performanse modela unutar domene analize slika, ali ne proširuju korisnost proizvoda na podatke koji nisu slike.
Alternativne strategije za podatke koji nisu slike
Organizacije koje traže automatizirano strojno učenje za podatke koji nisu slike trebale bi iskoristiti odgovarajući AutoML proizvod ili razmotriti sljedeće alternative:
- Razvoj prilagođenog modelaAko tip podataka ili zadatak nije pokriven postojećim AutoML proizvodima, organizacije će možda trebati razviti prilagođene cjevovode koristeći biblioteke otvorenog koda (npr. scikit-learn, TensorFlow, PyTorch) ili druge upravljane usluge koje podržavaju širu prilagodbu.
- Transformacija podatakaU rijetkim slučajevima, podaci se mogu transformirati u prikaz sličan slici (npr. podaci vremenskih serija pretvoreni u dijagrame ponavljanja ili Gramianove kutne polja), a zatim obraditi modelima temeljenima na slikama. Međutim, to zahtijeva značajno stručno znanje u domeni i pažljivu validaciju kako bi se osigurali značajni rezultati.
- Rješenja trećih stranaPostoje AutoML rješenja trećih strana (npr. H2O.ai, DataRobot) koja nude podršku za širi raspon modaliteta podataka unutar jedinstvenog sučelja.
AutoML Vision je dizajniran samo za automatizirano strojno učenje na slikovnim podacima i ne može se prilagoditi za analizu tipova podataka izvan vizualne domene. Za podatke koji nisu slike, kao što su tablice, tekst, audio ili video, Google Cloud pruža namjenske AutoML proizvode s prilagođenim cjevovodima, sučeljima i arhitekturama modela. Odabir ispravnog AutoML proizvoda prema tipu podataka ključan je za uspješne rezultate strojnog učenja.
Ostala nedavna pitanja i odgovori u vezi Napredak u strojnom učenju:
- Koji je cjeloviti tijek rada za pripremu i obuku prilagođenog modela klasifikacije slika pomoću AutoML Visiona, od prikupljanja podataka do implementacije modela?
- Kako znanstvenik podataka može iskoristiti Kaggle za primjenu naprednih ekonometrijskih modela, rigorozno dokumentiranje skupova podataka i učinkovitu suradnju na zajedničkim projektima s zajednicom?
- Koja je razlika između korištenja CREATE MODEL s LINEAR_REG u BigQuery ML-u i treniranja prilagođenog modela s TensorFlowom u Vertex AI-u za predviđanje vremenskih serija?
- Kako mogu vježbati AutoML Vision bez Google Cloud Platforme (nemam kreditnu karticu)?
- Je li eager način rada automatski uključen u novijim verzijama TensorFlowa?
- Kako kreirati model i verziju na GCP-u nakon učitavanja model.joblib na bucket?
- Može li se Kubeflow instalirati na vlastite servere?
- Isključuje li se željni način rada automatski pri prelasku na novu ćeliju u bilježnici?
- Može li se na privatnim modelima, s pristupom ograničenim na suradnike tvrtke, raditi unutar TensorFlowHuba?
- Je li moguće pretvoriti model iz json formata natrag u h5?
Pogledajte više pitanja i odgovora u Napredak u strojnom učenju

