Mokymasis.

Slides:



Advertisements
Panašios pateiktys
Laisvės ir kalnų šauksmas
Advertisements

“Ieškosiu Tavo veido...” pagal Isabel Guerra.
Lakštingala, čiulbanti 100 metų
Gėlių horoskopas MOTERIMS
Juozas Aputis (g. 1936) – rašytojas, bandantis surankioti ir savaip sudėlioti pasaulio grožį ir neįžvelgiamą jo gelmę reiškiančius žodžius. Parengė Vilniaus.
ATRASK DIEVO PAŠAUKIMĄ
III klasių viktorina Paruošė G.Baublienė ir L.Venskutė
Pateikties kopija:

Mokymasis

Mokymosi būdai Mokymasis su mokytoju Mokymasis be mokytojo Turime duomenų aibę (x1,x2..) ir turime atsakymą y -> rasti f ,kuri geriausiai apskaičiuotų y = f(x1,x2) Mokymasis be mokytojo Turimai aibei (x1,x2) sudaryk projekciją f(x1,x2) į mažesnę erdvę Mokymasis dalinai mokant Sustiprinantis mokymas

Sustiprinantis mokymas Agentas veikia aplinkoje ir gauna įvertinimą už nuveiktą veiksmą Problema: kredito priskyrimo problema Agentas Pasaulis Įvertinimas

Palyginimas Mokymasis su mokytoju: Skatinantis mokymas: Turime turėti adekvačių įvedimų ir atsakymų pavyzdžių, kurie nusakyti aplinką, kurioje mes veiksime Skatinantis mokymas: elgsena paremtas veikimas. Jis atliekamas per sąveika tarp mokymosi sistemos ir aplinkos, kurioje sistema bando pasiekti nustatytą tikslą.

Sustiprinantis mokymas ir robotika Naudingas mokantis judėjimo valdymo Algoritmai: Q-mokymasis SARSA mokymasis TD-lambda Sunkiai pritaikomas sudėtingiems uždaviniams

Tačiau Backgammon (liet. Trik-trak) (Tesauro, 1994) Lifto valdymas (Crites &Barto), 1996 Sraigtasparnio valdymas (Bagnell & Schneider), 2001 Daugelio robotų mokymasis (Bowling), 2004

Dinaminis programavimas Markovo sprendimų procesas: aplinka vystosi tikimybiškai ir apima tam tikrą diskrečių reikšmių aibę Kiekvienai aplinkos būsenai yra baigtinis pasirinktinų reikšmių skaičius Kiekvieną kartą atliekant veiksmą įskaičiuojama tam tikra “kaina” Būsenos peržvelgiamos, veiksmai atliekami, “kaina” apskaičiuojama diskrečiais veiksmais

Būsenų mašina

Esybės Strategija: funkcija nusakanti koks veiksmas turi būti pasirinktas kiekvienoje būsenoje Būsenos vertė: suma paskatinimų surinktų startuojant ta būsena ir sekant fiksuota strategija iki baigtinės būsenos Optimali strategija būtų ta, kuri pasirinktų veiksmus taip, kad maksimizuoti paskatinimų sumą Vertės funkcija: yra funkcija kuri nusako kokį veiksmą galime pasirinkti ir yra aproksimuojama mums tinkamu aproksimatoriumi (neuroniniais tinklais, atminties sistema, radialinėm bazinėm f-jom, veiksmų lentele)

Atsitiktinė vertės funkcija Tikslas pasiekti per kuo mažiau laiko vieną iš kampų

Optimali vertės funkcija

Vertės funkcijos suradimas ir sudaro skatinančio mokymo pagrindą

N-rankis banditas Pasirinkti automatą, kuris duoda didžiausią išlošimą Žvalgymas – eksplotavimas (Exploration – explotation)

http://brain.cc.kogakuin.ac.jp/~kanamaru/NN/CPRL/

Savaime besiorganizuojantys žemėlapiai

Pavyzdys Pasaulio šalys ir 39 indikatoriai, nusakantys gyvenimo kokybės faktorius, kaip sveikatą, mitybą, išsilavinimą ir t.t. Kaip sugrupuoti šias šalis ?

Savaiminė organizacija Neuroninis tinklas Konkurentinis mokymasis: Tik vienas neuronas aktyvuojamas vienu metu Žemėlapis Neuronai išdėstomi gardele (plokščia arba eile) Neuronai pastoviai mokomi reaguoti į įvedimo signalus Neuronai organizuojasi tam tikra geometrine tvarka

Topologija  

Savaiminė organizacija kaip smegenų modelis Panašu į žmogaus smegenų žievę: Organizuota tokia tvarka, kad skirtingi sensoriniai signalai patenka į skirtingas žmogaus žievės vietas Neuronų “žemėlapis” Pagrindinis blokas sudarant nervų sistemos informacijos apdorojimo struktūrą Neuronų masyvai yra kaip skirtingai optimizuoti, suderinti procesoriai, skirti atlikti skirtingas užduotis

Smegenų žievės kolonėlė

Pradžia Willshaw-von der Malsburg modelis, bandantis paaiškinti signalo perdavimą iš ragenos į smegenų žievę Modelis 2 matavimai -> 2 matavimai

Kohoneno savaime organizuojantys žemėlapiai Algoritmas: Initializavimas Konkurencija Išrenkamas neuronas nugalėtojas Bendravimas Atrenkami aplink “nugalėtoją” esantys neuronai, kaip pagrindas “bendavimui” Sinaptinė adaptacija Atrinkti neuronai pamokomi pakeisti savo reikšmes taip, kad labiau atitiktų paduotą pavyzdį

Detaliau Parenkami pakankamai maži, atsitiktiniai neurono sinapsių svoriai Atranka: surasti artimiausią neuroną pagal naudojant euklido atstumą Mokymas: atnaujinti neurono svorius pagal formulė:

Kaimyno funkcija

Etapai Organizacijos arba tvarkymosi fazė Gali užimti apie 1000 iteracijų arba daugiau. Surandamos bendros grupės, apytiksliai pasiskirstymai žemėlapyje turi kisti nuo 0.1 iki 0.01 pradžiai turi apimti visus neuronus ir tik vėliau mažėti

Etapai Supanašėjimo fazė Prisiderinimo, mažesnių pakeitimų fazė Iteracijų skaičius: mažiausiai 500 * neuronų skaičius tinkle apie 0.01 Kaimynų funkcija turi apimti tik artimiausius neuronus

http://www.cis.hut.fi/research/javasomdemo/demo2.html