Pateiktis įkeliama. Prašome palaukti

Pateiktis įkeliama. Prašome palaukti

Mokymasis.

Panašios pateiktys


Pateikčių temos: "Mokymasis."— Pateikties kopija:

1 Mokymasis

2 Mokymosi būdai Mokymasis su mokytoju Mokymasis be mokytojo
Turime duomenų aibę (x1,x2..) ir turime atsakymą y -> rasti f ,kuri geriausiai apskaičiuotų y = f(x1,x2) Mokymasis be mokytojo Turimai aibei (x1,x2) sudaryk projekciją f(x1,x2) į mažesnę erdvę Mokymasis dalinai mokant Sustiprinantis mokymas

3 Sustiprinantis mokymas
Agentas veikia aplinkoje ir gauna įvertinimą už nuveiktą veiksmą Problema: kredito priskyrimo problema Agentas Pasaulis Įvertinimas

4 Palyginimas Mokymasis su mokytoju: Skatinantis mokymas:
Turime turėti adekvačių įvedimų ir atsakymų pavyzdžių, kurie nusakyti aplinką, kurioje mes veiksime Skatinantis mokymas: elgsena paremtas veikimas. Jis atliekamas per sąveika tarp mokymosi sistemos ir aplinkos, kurioje sistema bando pasiekti nustatytą tikslą.

5 Sustiprinantis mokymas ir robotika
Naudingas mokantis judėjimo valdymo Algoritmai: Q-mokymasis SARSA mokymasis TD-lambda Sunkiai pritaikomas sudėtingiems uždaviniams

6 Tačiau Backgammon (liet. Trik-trak) (Tesauro, 1994)
Lifto valdymas (Crites &Barto), 1996 Sraigtasparnio valdymas (Bagnell & Schneider), 2001 Daugelio robotų mokymasis (Bowling), 2004

7 Dinaminis programavimas
Markovo sprendimų procesas: aplinka vystosi tikimybiškai ir apima tam tikrą diskrečių reikšmių aibę Kiekvienai aplinkos būsenai yra baigtinis pasirinktinų reikšmių skaičius Kiekvieną kartą atliekant veiksmą įskaičiuojama tam tikra “kaina” Būsenos peržvelgiamos, veiksmai atliekami, “kaina” apskaičiuojama diskrečiais veiksmais

8 Būsenų mašina

9 Esybės Strategija: funkcija nusakanti koks veiksmas turi būti pasirinktas kiekvienoje būsenoje Būsenos vertė: suma paskatinimų surinktų startuojant ta būsena ir sekant fiksuota strategija iki baigtinės būsenos Optimali strategija būtų ta, kuri pasirinktų veiksmus taip, kad maksimizuoti paskatinimų sumą Vertės funkcija: yra funkcija kuri nusako kokį veiksmą galime pasirinkti ir yra aproksimuojama mums tinkamu aproksimatoriumi (neuroniniais tinklais, atminties sistema, radialinėm bazinėm f-jom, veiksmų lentele)

10 Atsitiktinė vertės funkcija
Tikslas pasiekti per kuo mažiau laiko vieną iš kampų

11 Optimali vertės funkcija

12 Vertės funkcijos suradimas ir sudaro skatinančio mokymo pagrindą

13 N-rankis banditas Pasirinkti automatą, kuris duoda didžiausią išlošimą
Žvalgymas – eksplotavimas (Exploration – explotation)

14

15 Savaime besiorganizuojantys žemėlapiai

16 Pavyzdys Pasaulio šalys ir 39 indikatoriai, nusakantys gyvenimo kokybės faktorius, kaip sveikatą, mitybą, išsilavinimą ir t.t. Kaip sugrupuoti šias šalis ?

17 Savaiminė organizacija
Neuroninis tinklas Konkurentinis mokymasis: Tik vienas neuronas aktyvuojamas vienu metu Žemėlapis Neuronai išdėstomi gardele (plokščia arba eile) Neuronai pastoviai mokomi reaguoti į įvedimo signalus Neuronai organizuojasi tam tikra geometrine tvarka

18 Topologija

19 Savaiminė organizacija kaip smegenų modelis
Panašu į žmogaus smegenų žievę: Organizuota tokia tvarka, kad skirtingi sensoriniai signalai patenka į skirtingas žmogaus žievės vietas Neuronų “žemėlapis” Pagrindinis blokas sudarant nervų sistemos informacijos apdorojimo struktūrą Neuronų masyvai yra kaip skirtingai optimizuoti, suderinti procesoriai, skirti atlikti skirtingas užduotis

20 Smegenų žievės kolonėlė

21 Pradžia Willshaw-von der Malsburg modelis, bandantis paaiškinti signalo perdavimą iš ragenos į smegenų žievę Modelis 2 matavimai -> 2 matavimai

22 Kohoneno savaime organizuojantys žemėlapiai
Algoritmas: Initializavimas Konkurencija Išrenkamas neuronas nugalėtojas Bendravimas Atrenkami aplink “nugalėtoją” esantys neuronai, kaip pagrindas “bendavimui” Sinaptinė adaptacija Atrinkti neuronai pamokomi pakeisti savo reikšmes taip, kad labiau atitiktų paduotą pavyzdį

23 Detaliau Parenkami pakankamai maži, atsitiktiniai neurono sinapsių svoriai Atranka: surasti artimiausią neuroną pagal naudojant euklido atstumą Mokymas: atnaujinti neurono svorius pagal formulė:

24 Kaimyno funkcija

25 Etapai Organizacijos arba tvarkymosi fazė
Gali užimti apie 1000 iteracijų arba daugiau. Surandamos bendros grupės, apytiksliai pasiskirstymai žemėlapyje turi kisti nuo 0.1 iki 0.01 pradžiai turi apimti visus neuronus ir tik vėliau mažėti

26 Etapai Supanašėjimo fazė Prisiderinimo, mažesnių pakeitimų fazė
Iteracijų skaičius: mažiausiai 500 * neuronų skaičius tinkle apie 0.01 Kaimynų funkcija turi apimti tik artimiausius neuronus

27

28


Atsisiųsti ppt "Mokymasis."

Panašios pateiktys


Google reklama