Forståelse log_prob for Normal distribusjon i pytorch

stemmer
1

Jeg er for tiden prøver å løse Pendulum-v0 fra openAi gym miljøet som har en kontinuerlig virkning plass. Som et resultat, trenger jeg å bruke en normalfordeling å prøve mine handlinger. Det jeg ikke forstår er den dimensjonen av log_prob når du bruker den:

skriv

Jeg var ventet en tensor av størrelse 2 (en log_prob for hvert tiltak), men det utgang en tensor av størrelse (2,2).

Imidlertid, ved bruk av en Kategorisk fordeling for atskilt miljø den log_prob har den forventede størrelsen. Hvorfor er log_prob for normal fordeling av en annen størrelse?

Publisert på 19/03/2020 klokken 21:23
kilden bruker
På andre språk...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more