Open access

Téléchargement

POLICY SEARCH IN A SPACE OF SIMPLE CLOSED-FORM

FORMULAS: TOWARDS INTERPRETABILITY OF

REINFORCEMENT LEARNING

INTRODUCTION OPTIMAL SEQUENTIAL DECISION MAKING 2/27

OPTIMAL SEQUENTIAL DECISION

MAKING IS A CENTRAL PROBLEM OF

COMPUTER SCIENCE AND HAS A HUGE

NUMBER OF APPLICATIONS

MEDICAL THERAPY OPTIMIZATION

FINANCIAL TRADING

ROBOT OPTIMAL CONTROL

AUTOMATIC GAME PLAYING

COMBINATORIAL

INTRODUCTION MARKOV DECISION PROCESS 3/27

SEQUENTIAL DECISION MAKING

IS OFTEN STUDIED IN A CONTEXT

WHERE THE ENVIRONMENT IS A

MARKOV DECISION PROCESS

THE AIM OF THE

AGENT IS TO SELECT

ACTIONS SO AS TO

MAXIMIZE THE

L0NG-TERM SUM OF

REWARDS

THE ENVIRONMENT SENDS IN

RETURN AN INSTANTANEOUS

REWARD Rt.

AT EACH TIME STEP T, THE

AGENT IS IN A STATE xt

AND SELECTS AN ACTION ut.

INTRODUCTION REINFORCEMENT LEARNING 4/27

REINFORCEMENT LEARNING IS A

CLASS OF SAMPLING-BASED

APPROACHES TO LEARN DECISION

MAKING POLICIES

WHEN THE STATE SPACE IS LARGE,

FUNCTION APPROXIMATION

TECHNIQUES ARE USED TO COMPACTLY

STORE THE DECISION POLICY

BEST PERFORMING RL TECHNIQUES

RELY ON BLACK-BOX FUNCTION

APPROXIMATORS, MOSTLY COMING FROM

THE FIELD OF SUPERVISED

LEARNING: NEURAL NETWORKS,

RANDOM FORESTS, RADIAL BASIS

FUNCTIONS, ...

INTRODUCTION A KEY PROBLEM OF RL 5/27

HUMANS TEND TO DISTRUST

COMPUTER GENERATED

DECISIONS, ESPECIALLY WHEN

THE POLICY IS A BLACK-BOX

NO WAY I'm GONNA USE

A BLACK-BOX DECISION

POLICY FOR MY FINANCIAL

PROBLEM

NEITHER ME FOR

CLINICAL DECISIONS

THAT IMPACT THE

PATIENTS' HEALTH

FURTHERMORE,

APPLYING A DECISION

POLICY TO THE REAL WORLD

OFTEN INVOLVES ISSUES

BEYOND THE SCOPE OF

COMPUTER SCIENCE (E.G

ETHICAL, POLITICAL,

IDEOLOGICAL)

1 / 29 100%

Documents connexes

Open access

Exercise 1

Open access

http://www.bluering.nl/sieuwert/download/esslli05otterloo.pdf

PDF

Automata for the modal mu-calculus and related results

[arxiv.org]

Pr996

Author Guidelines: Applied Mechanics & Technical Physics

http://dip.semanticweb.org/documents/Translatingontologiesfrompredicate-basedtoframe-basedlanguages.pdf

http://2006.ruleml.org/online-proceedings/frames-ruleml.pdf

http://www.lix.polytechnique.fr/~dale/papers/apal91.pdf

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Open access

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Open access

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib