Mokymasis
Mokymosi būdai Mokymasis su mokytoju Mokymasis be mokytojo Turime duomenų aibę (x1,x2..) ir turime atsakymą y -> rasti f ,kuri geriausiai apskaičiuotų y = f(x1,x2) Mokymasis be mokytojo Turimai aibei (x1,x2) sudaryk projekciją f(x1,x2) į mažesnę erdvę Mokymasis dalinai mokant Sustiprinantis mokymas
Sustiprinantis mokymas Agentas veikia aplinkoje ir gauna įvertinimą už nuveiktą veiksmą Problema: kredito priskyrimo problema Agentas Pasaulis Įvertinimas
Palyginimas Mokymasis su mokytoju: Skatinantis mokymas: Turime turėti adekvačių įvedimų ir atsakymų pavyzdžių, kurie nusakyti aplinką, kurioje mes veiksime Skatinantis mokymas: elgsena paremtas veikimas. Jis atliekamas per sąveika tarp mokymosi sistemos ir aplinkos, kurioje sistema bando pasiekti nustatytą tikslą.
Sustiprinantis mokymas ir robotika Naudingas mokantis judėjimo valdymo Algoritmai: Q-mokymasis SARSA mokymasis TD-lambda Sunkiai pritaikomas sudėtingiems uždaviniams
Tačiau Backgammon (liet. Trik-trak) (Tesauro, 1994) Lifto valdymas (Crites &Barto), 1996 Sraigtasparnio valdymas (Bagnell & Schneider), 2001 Daugelio robotų mokymasis (Bowling), 2004
Dinaminis programavimas Markovo sprendimų procesas: aplinka vystosi tikimybiškai ir apima tam tikrą diskrečių reikšmių aibę Kiekvienai aplinkos būsenai yra baigtinis pasirinktinų reikšmių skaičius Kiekvieną kartą atliekant veiksmą įskaičiuojama tam tikra “kaina” Būsenos peržvelgiamos, veiksmai atliekami, “kaina” apskaičiuojama diskrečiais veiksmais
Būsenų mašina
Esybės Strategija: funkcija nusakanti koks veiksmas turi būti pasirinktas kiekvienoje būsenoje Būsenos vertė: suma paskatinimų surinktų startuojant ta būsena ir sekant fiksuota strategija iki baigtinės būsenos Optimali strategija būtų ta, kuri pasirinktų veiksmus taip, kad maksimizuoti paskatinimų sumą Vertės funkcija: yra funkcija kuri nusako kokį veiksmą galime pasirinkti ir yra aproksimuojama mums tinkamu aproksimatoriumi (neuroniniais tinklais, atminties sistema, radialinėm bazinėm f-jom, veiksmų lentele)
Atsitiktinė vertės funkcija Tikslas pasiekti per kuo mažiau laiko vieną iš kampų
Optimali vertės funkcija
Vertės funkcijos suradimas ir sudaro skatinančio mokymo pagrindą
N-rankis banditas Pasirinkti automatą, kuris duoda didžiausią išlošimą Žvalgymas – eksplotavimas (Exploration – explotation)
http://brain.cc.kogakuin.ac.jp/~kanamaru/NN/CPRL/
Savaime besiorganizuojantys žemėlapiai
Pavyzdys Pasaulio šalys ir 39 indikatoriai, nusakantys gyvenimo kokybės faktorius, kaip sveikatą, mitybą, išsilavinimą ir t.t. Kaip sugrupuoti šias šalis ?
Savaiminė organizacija Neuroninis tinklas Konkurentinis mokymasis: Tik vienas neuronas aktyvuojamas vienu metu Žemėlapis Neuronai išdėstomi gardele (plokščia arba eile) Neuronai pastoviai mokomi reaguoti į įvedimo signalus Neuronai organizuojasi tam tikra geometrine tvarka
Topologija
Savaiminė organizacija kaip smegenų modelis Panašu į žmogaus smegenų žievę: Organizuota tokia tvarka, kad skirtingi sensoriniai signalai patenka į skirtingas žmogaus žievės vietas Neuronų “žemėlapis” Pagrindinis blokas sudarant nervų sistemos informacijos apdorojimo struktūrą Neuronų masyvai yra kaip skirtingai optimizuoti, suderinti procesoriai, skirti atlikti skirtingas užduotis
Smegenų žievės kolonėlė
Pradžia Willshaw-von der Malsburg modelis, bandantis paaiškinti signalo perdavimą iš ragenos į smegenų žievę Modelis 2 matavimai -> 2 matavimai
Kohoneno savaime organizuojantys žemėlapiai Algoritmas: Initializavimas Konkurencija Išrenkamas neuronas nugalėtojas Bendravimas Atrenkami aplink “nugalėtoją” esantys neuronai, kaip pagrindas “bendavimui” Sinaptinė adaptacija Atrinkti neuronai pamokomi pakeisti savo reikšmes taip, kad labiau atitiktų paduotą pavyzdį
Detaliau Parenkami pakankamai maži, atsitiktiniai neurono sinapsių svoriai Atranka: surasti artimiausią neuroną pagal naudojant euklido atstumą Mokymas: atnaujinti neurono svorius pagal formulė:
Kaimyno funkcija
Etapai Organizacijos arba tvarkymosi fazė Gali užimti apie 1000 iteracijų arba daugiau. Surandamos bendros grupės, apytiksliai pasiskirstymai žemėlapyje turi kisti nuo 0.1 iki 0.01 pradžiai turi apimti visus neuronus ir tik vėliau mažėti
Etapai Supanašėjimo fazė Prisiderinimo, mažesnių pakeitimų fazė Iteracijų skaičius: mažiausiai 500 * neuronų skaičius tinkle apie 0.01 Kaimynų funkcija turi apimti tik artimiausius neuronus
http://www.cis.hut.fi/research/javasomdemo/demo2.html