Reinforcement Learning (RL) är AWESOMEBALLS

Yo team!

Har plöjt igenom en hel del RL (Reinforcement Learning) senaste tiden och måste säga att jag är helt såld på detta.

Det är inte bara grundpelaren bakom självkörande bilar och avancerade robotar, utan det står också bakom genombrottet Alfa Go (du måste se, jag länkar).

Något med RL har helt enkelt fångat mig – tror det är det magin i att inte behöva berätta för en modell exakt hur den ska göra saker, utan bara vad målet är.

Tänk er scenariot: vi ska landa en raket på månen. Vi sparkar igång med att definiera en "reward" funktion. Det är inte bara en enkel +10 för rätt drag och -10 för fel, utan det kan bli riktigt knivigt och sofistikerat, beroende på vad vi vill att vår robot ska optimera mot.

Detta är kärnan i RL – att styra lärandet genom belöningar mot det beteende vi vill se.

Här står vår raket, eller robot, i ett visst "state" (s), redo att göra sin grej. Den väljer en "action" (a), och boom – den landar i en ny situation, eller ett nytt state (s'). Målet är att i varje given situation (s), välja en handling som maximerar returen från vår belöningsfunktion.

Och här kommer Bellmans ekvation in i bilden, som vår räknemästare. Den ser till att utvärdera alla möjliga framtida scenarier (s') som vår robot kan hamna i, för att sedan välja den handling (a) som maximerar vår reward.

Det är som en oupphörlig optimeringsdans, där ekvationen (V(s) = maxa(R(s,a) + γV(s'))) guidar varje steg.

Och med hyperparametern gamma (γ) får vi makt att influera om vår robot ska tänka mer på korta eller långa drag – precis som en schackmästare som planerar flera drag framåt.

Med denna hyperparameter kan vi ställa in om roboten ska ta det där steget åt höger för 15 poäng nu, eller navigera en lite klurigare väg som kanske tar 6 steg men leder till 25 poäng i slutändan. Det handlar alltså om att balansera mellan att utforska nya vägar och att utnyttja de vägar som redan är kända för att ge bra utdelning.

Jag rekommenderar dig STARKT att kolla på dokumentären jag bifogar för att se kraften av RL.

2 comments

skool.com/hackersson-7455

Här samlas Sveriges bästa programmerare och hackers för att bygga framtiden. Häng på.

Members

Online

Admin

Leaderboard (30-day)

Alexander Vivas Jernström

Yacine Laghmari