واگرایی در آموزش عمیق Q: نکات و ترفندها

ساخت وبلاگ

شبکه های عمیق Q (DQN) جهان یادگیری تقویت را متحول کردند. این اولین الگوریتم بود که قادر به یادگیری یک استراتژی موفق در یک محیط پیچیده بلافاصله از ورودی های تصویر با ابعاد بالا بود. در این پست وبلاگ ، ما بررسی می کنیم که چگونه برخی از تکنیک های معرفی شده در مقاله اصلی به موفقیت آن کمک کرده است. به طور خاص ، ما بررسی می کنیم که پخش مجدد حافظه و شبکه های هدف از چه میزان به جلوگیری از واگرایی در فرآیند یادگیری کمک می کند.

یادگیری تقویت (RL) قبلاً مدتی است که وجود دارد ، اما هنوز نزدیک به حل آن نیست. در حالی که یادگیری تحت نظارت می تواند بسیار دشوار باشد ، روش های RL نیز باید با تغییر در توزیع داده ها ، فضاهای عظیم حالت ، مشاهده جزئی و سایر موارد مقابله کنند. در سال 2013 ، مقاله ای که Atari با یادگیری تقویت عمیق (MNIH و همکاران) بازی می کند DQN ، اولین روش RL برای یادگیری موفقیت آمیز سیاست های خوب به طور مستقیم از ورودی های با ابعاد بالا با استفاده از شبکه های عصبی است. این الگوریتم در چندین بازی آتاری بهتر از متخصصان انسانی عمل می کند و مستقیماً از ورودی تصویر یاد می گیرد.

نویسندگان DQN در مقاله 2015 خود در DQN بهبود می یابند و تکنیک های اضافی را برای تثبیت روند یادگیری معرفی می کنند. در این پست ، ما به دو نوآوری کلیدی DQN ، پخش مجدد حافظه و شبکه های هدف نگاهی می اندازیم. ما آزمایش های خودمان را انجام می دهیم ، بررسی می کنیم که هر یک از این تکنیک ها تا چه حد به جلوگیری از واگرایی در فرایند یادگیری کمک می کند. هنگامی که واگرایی رخ می دهد ، کیفیت استراتژی آموخته شده شانس بالایی برای از بین بردن دارد که می خواهیم از آن جلوگیری کنیم. مطالعه شرایط واگرایی همچنین به ما این امکان را می دهد تا بینش بهتری در مورد پویایی یادگیری یادگیری Q با تقریب عملکرد شبکه عصبی بدست آوریم.

بقیه این پست به شرح زیر است:

  • ما ابتدا کمی از پس زمینه را توسعه می دهیم ، به طور خلاصه به RL ، Q-Leaing ، عملکرد تقریب عملکرد با شبکه های عصبی و الگوریتم DQN می پردازیم.
  • سپس تعریفی از واگرایی ارائه می دهیم ، که در آزمایشات خود از آن استفاده می کنیم.
  • ما مجموعه آزمایشی را توصیف می کنیم ،
  • پس از آن ما در مورد نتایج بحث می کنیم.

زمینه

در این پست ، ما فقط مختصراً از تکنیک های اصلی ارائه خواهیم داد ، و به همه تئوری پس زمینه خیلی عمیق نرویم. اگر می خواهید عمیق تر حفر کنید ، پیشنهاد می کنیم مقاله اصلی را بررسی کنید.

یادگیری تقویت کننده

در RL ، ما یک عامل را در تعامل با برخی از محیط ها مطالعه می کنیم. مأمور یاد می گیرد با بهینه سازی پاداش مقیاس داده شده توسط محیط خود اقدامات خوبی انجام دهد. نماینده می آموزد که وضعیت فعلی جهان ، $ S $ را برای توزیع احتمال نسبت به اقدامات خود $ pi (a mid) $ ، که ما آن را سیاستی می نامیم ، ترسیم کند. در یک بازی آتاری ، بازی محیط است و بازیکن عامل است که با یادگیری یک سیاست خوب سعی در به حداکثر رساندن نمره خود دارد.

محیط در هر مقطع زمانی سیگنال پاداش را برای ما فراهم می کند. ما به دریافت حداکثر پاداش تجمعی با گذشت زمان ، بازده اهمیت می دهیم. در هر زمان $ t $ ، می توانیم بازده آینده را به این صورت تعریف کنیم:

$ $ g_: = r_t + gamma r_ + ldots + gamma^r_t = sum_^t gamma^r_ = r_t + gamma g_ $ $

جایی که $ r_t $ پاداش در زمان $ t $ است ، $ t $ مرحله زمانی است که قسمت آن خاتمه می یابد ، و 0 $ leq gamma leq 1 $ نرخ تخفیف است. از نرخ تخفیف برای کنترل میزان اهمیت ما به پاداش های آینده استفاده می شود ، با ارزش های بالاتر به آینده دورتر به نظر می رسد. یک قسمت را می توان به عنوان یک نمونه از یادگیری دانست. در دنیای آتاری ، یک قسمت یک دور بازی قبل از بازی است. معادله 1 هویت بسیار مهمی را برای یادگیری بعداً در اختیار ما قرار می دهد.

از آنجا که ما نمی دانیم در آینده چه پاداش هایی را می خواهیم ، باید با بازگشت آینده مورد انتظار (تخفیف) کار کنیم. این امر ما را به $ q $-که به عنوان بازده آینده مورد انتظار تعریف شده است ، با توجه به اینکه ما یک دلار $ در ایالت $ S $ تعریف می کنیم و خط مشی $ pi $ را دنبال می کنیم:

$ $ q^ pi (s ، a): = mathbb_ pi [g_t mid s_t = s ، a_t = a].$ $

انتظار با توجه به $ pi $ است ، زیرا آن را تعیین می کند (به همراه محیط) که از آن بازدید می شود ، و به نوبه خود کدام جوایز به دست می آید.

$ q $-leaing

اگر بتوانیم این مقادیر $ q $ را بیاموزیم ، می دانیم کدام اقدامات بهترین بازده را به همراه دارد و به ما امکان می دهد خط مشی خود را بهینه کنیم. یکی از تکنیک های مبتنی بر این اصل $ q $-Leaing است. در $ q $--leaing ، ما بهینه $ q $ را مستقیماً از انتقال محیط زیست با تجربه $ (S ، A ، R ، S) $ می آموزیم ، جایی که $ S '$ پس از اقدام $ $ S $ پس از انجام $ $ است.$قانون به روزرسانی زیر استفاده می شود:

$ $ q (s ، a) Leftarrow Q (s ، a) + alpha (r + gamma max_ q (s '، a') - q (s ، a)) $ $

که در آن $alpha$ یک پارامتر نرخ یادگیری است که سرعت یادگیری را کنترل می کند. این به روز رسانی $Q$-values $Q(s, a)$ فعلی را به سمت اهداف بوت استرپ $r + gamma max_Q(s', a')$ هدایت می کند. انتقال های نمونه را می توان با استفاده از *هر* خط مشی، مانند خط مشی epsilon-greedy، ایجاد کرد، که یادگیری $Q$ را به یک روش خارج از سیاست تبدیل می کند.

تقریب تابع

در بیشتر سناریوهای واقع بینانه، فضای حالت برای ذخیره کردن $Q$-values بسیار بزرگ است. تصور کنید که یک وضعیت بازی Atari را مستقیماً از داده های تصویر به یک مقدار $Q$ نگاشت کنید. با فرض مقادیر پیکسل RGB و صفحه نمایش 84×84 پیکسل، باید مقادیر $(256 cdot 3)^$ را ذخیره کنیم، یکی برای هر پیکربندی پیکسل. علاوه بر این غیرعملی بودن، ما بین حالات پیکسل های مختلف به خوبی تعمیم نمی دهیم، زیرا این حالت ها ساختار نهفته را به طور موثری ثبت نمی کنند.

بنابراین، تقریب تابع برای پیش بینی ارزش های $Q$ با استفاده از برخی تابع های آموخته شده، با توجه به یک جفت حالت یا حالت-عمل استفاده می شود. این اجازه می دهد تا $Q$-value ها به شکل فشرده (پارامترها) و تعمیم در حالت های مشابه نمایش داده شوند.

در DQN، به روزرسانی $Q$ کمی با آنچه در معادله 2 توضیح داده شد متفاوت است، زیرا از تقریب تابع با پارامترهای $ heta$، یعنی $Q(s, a) = Q(s, a; heta)$ استفاده می کند.. تقریباً معادل 1 برای به حداقل رساندن میانگین مربعات خطا بین هدف $r + gamma max_ Q(s', a')$ و مقدار $Q$ فعلی با استفاده از نزول گرادیان تصادفی است:

$$ heta^ lefttarrow heta^t + \alpha [(r + gamma max_ Q(s', a'; heta^t) - Q(s, a; heta^t))

abla_ Q(s, a; heta^t)] $$

جایی که $Q$ به عنوان یک شبکه عصبی پیاده سازی شده است. در حالی که شبکه های عصبی می توانند دینامیک های بسیار پیچیده ای را یاد بگیرند، آنها همچنین به طور بدنامی ناپایدار هستند. این بی ثباتی از شبکه های عصبی (و دیگر تقریب کننده های تابع پیچیده) برای مدتی طولانی از استفاده موفقیت آمیز در RL جلوگیری کرد. یعنی تا زمانی که DQN چندین تکنیک را برای مبارزه با این بی ثباتی پیشنهاد کرد، از جمله پخش مجدد تجربه و شبکه های هدف.

تکرار را تجربه کنید

ما دیدیم که DQN با استفاده از شبکه های عصبی، مقادیر $Q$ را می آموزد. این می تواند به عنوان یادگیری تحت نظارت دیده شود. در این پارادایم، یک فرض کلیدی این است که داده ها به طور مستقل و یکسان توزیع می شوند (i. i. d.). با این حال، در RL، این مورد صادق نیست. حالت های بعدی به شدت همبستگی دارند و توزیع داده ها با یادگیری عامل تغییر می کند. برای مقابله با این، DQN آخرین $N$ انتقال تجربه شده را در حافظه با مقداری ظرفیت محدود $N$ ذخیره می کند. هنگام انجام به روزرسانی $Q$-value، از تجربیاتی استفاده می کند که به طور تصادفی از حافظه نمونه برداری شده اند.

ایده نمونه برداری به طور تصادفی شکستن همبستگی بین تجربیات به روز شده ، افزایش کارایی نمونه و کاهش واریانس است. نویسندگان همچنین استدلال می کنند که این تکنیک: با جلوگیری از حلقه های بازخورد ناخواسته کمک می کند. و میانگین توزیع رفتار در بسیاری از حالت های قبلی ، صاف کردن یادگیری و جلوگیری از واگرایی.

شبکه های هدف

در به روزرسانی پارامتر داده شده توسط معادله 3 ، شبکه Q هر دو وضعیت فعلی پیش بینی شده $ Q $-Value و همچنین هدف را پیش بینی می کند: $ r + gamma max_ q (s '، a' ؛ theta^t)$با این حال ، پس از به روزرسانی پارامترهای شبکه ، مقدار هدف نیز تغییر می کند. این مانند این است که از شبکه بخواهید که یاد بگیرد چشم گاو را پرتاب کند ، اما سپس صفحه دارت را به جای دیگری حرکت می دهد. این منجر به بی ثباتی می شود.

برای مقابله با این مشکل ، DQN با استفاده از یک شبکه هدف پیشنهاد می کند. ایده این است که هدف را با استفاده از یک شبکه (هدف) محاسبه کنید که برای برخی از مراحل زمان به روز نشده است. به این ترتیب ، اهداف در طول آموزش "حرکت نمی کنند". هر مرحله C $ $ ، شبکه هدف با شبکه فعلی $ $ $ هماهنگ می شود.

واگرایی

هدف ما این بود که دریابیم که دو روش ذکر شده در بالا به چه میزان کمک می کنند تا با واگرایی در فرایند یادگیری برخورد کنیم. واگرایی هنگامی اتفاق می افتد که تقریب عملکرد $ q $ مقادیر غیر واقعی را برای جفت های عملکرد دولتی می آموزد ، به نوبه خود باعث از بین رفتن کیفیت سیاست کنترل حریص حاصل از $ Q $ (ون هاسلت و همکاران) می شود.

برای اکثر محیط ها ، ما مقادیر Q واقعی را نمی دانیم. چگونه می دانیم که در آن زمان واگرایی رخ می دهد؟ون هاسلت و همکاران. برای تعریف واگرایی نرم ، یک پروکسی برای واگرایی از یک ترفند هوشمندانه استفاده کنید. برای جلوگیری از بی ثباتی ، DQN همه پاداش ها را به محدوده $ [-1 ، 1] $ می رساند. بنابراین ، بازگشت آینده در برخی از ایالت ها محدود به:

جایی که آخرین برابری نتیجه کلی برای سری هندسی است. این بدان معنی است که هر مقدار $ q $ از لحاظ نظری با معادله فوق محدود است. اگر حداکثر مقدار $ q $ $ از این حد فراتر رود ، می گوییم واگرایی نرم رخ می دهد.

راه اندازی آزمایش

ما سعی می کنیم تنظیمات آزمایشی را از کاغذ DQN در هر کجا که ممکن باشد دنبال کنیم. حتی اگر نویسندگان از یک شبکه عصبی حلقوی برای بازی بازی های آتاری استفاده می کنند ، با توجه به محاسبات و محدودیت های زمانی ، خودمان را به محیط های ساده تر محدود می کنیم. ما از یک شبکه عصبی کاملاً متصل با یک لایه پنهان واحد (به استثنای لایه های ورودی و خروجی) از اندازه 128 استفاده می کنیم ، نقشه برداری از حالت های ورودی به مجموعه ای از اقدامات گسسته. ما قبل از لایه خروجی از توابع فعال سازی RELU در هر لایه استفاده می کنیم. ما محیط های تئوری کنترل کلاسیک را در نظر می گیریم که توسط Openai Gym در دسترس است:

محیط 1: قطب سبد

در محیط قطب سبد خرید ، عامل سعی می کند با استفاده از یک نیروی راست یا یک نیروی چپ ، یک قطب را روی یک سبد تعادل برقرار کند. برای هر قدم ، قطب به صورت قائم باقی می ماند (کمتر از 15 درجه از عمودی) ، عامل پاداش 1+ را دریافت می کند. از آنجا که مشکل وی برای حل آن نسبتاً آسان تلقی می شود. ما آن را به عنوان نماینده مشکلات با مشکل کم انتخاب کردیم.

محیط 2: آکروبات

در محیط آکروبات ، عامل سعی می کند با استفاده از گشتاور در جهت عقربه های ساعت یا ضد عقربه های ساعت ، یک بازوی ربات دو لینک را در بالای پایه قرار دهد. این مشکل دشوارتر از مسئله قبلی است ، بنابراین ما آن را به عنوان نماینده مشکلات با مشکل در سطح متوسط انتخاب می کنیم.

محیط 3: ماشین کوهستانی

در محیط ماشین کوهستانی ، مأمور یک ماشین را در پایین دره شروع می کند و سعی می کند آن را از تپه راست سوق دهد. با این حال ، موتور ماشین به اندازه کافی قوی نیست که بتواند این کار را در یک پاس واحد انجام دهد. در عوض ، برای ایجاد حرکت باید بین تپه چپ و راست به عقب و جلو برود. این مشکل کاملاً چالش برانگیز است ، بنابراین ما آن را به عنوان نماینده مشکلات با مشکل در سطح بالا انتخاب می کنیم.

آزمایشات و هایپرپارامترها

از آنجا که اکنون واگرایی می تواند اندازه گیری شود ، ما از آن به عنوان یک متریک استفاده می کنیم تا مقایسه کنیم که الگوریتم ها نسبت به سایرین واگرایی بیشتری دارند. ما می گوییم یک الگوریتم اگر کسری از دویدن که در آن واگرایی نرم رخ می دهد بیشتر است ، واگرایی بیشتری نشان می دهد. ما به پخش مجدد حافظه و شبکه های هدف به عنوان "ترفندهای" DQN اشاره می کنیم. پیشرفتی که هر یک از ترفندها به DQN می بخشد در برابر مدل پایه ، DQN بدون ترفند یا DQN وانیل اندازه گیری می شود. بنابراین ما 4 تنظیم مختلف را برای هر محیط مقایسه می کنیم: بدون ترفند (عامل وانیلی) ، با پخش حافظه (عامل حافظه) ، با شبکه های هدف (عامل هدف) و با هر دو ترفند (DQN / Memory+عامل هدف).<1-gamma>ما هر آزمایش را با دانه های تصادفی از 1 تا 25 انجام می دهیم تا از نظر آماری بیشتر به نتایج سالم برسیم ، در حالی که بودجه محاسباتی خود را در نظر می گیریم. اگر حداکثر مقدار Q مطلق ، پیش بینی شده در هر یک از 20 قسمت آموزشی گذشته ، بالاتر از آستانه $ frac باشد

$ ، ما می گوییم واگرایی نرم رخ می دهد.

همه مأمورین برای 700 قسمت آموزش دیده اند که به نظر ما برای یادگیری برنده بازی ها کافی است. برای اکتشاف بهتر ، ما از یک استراتژی $ $ $-greedy $ استفاده می کنیم که در طی 400 قسمت اول از 1 تا 0. 1 به صورت خطی آنیل می شود و پس از آن ثابت نگه داشته می شود. ضریب تخفیف $ gamma = 0. 99 $ برای همه محیط ها است.

Hyperparameter دیگر فرکانس به روزرسانی های شبکه هدف (هر زمان که از این تکنیک استفاده می شود) است و ما به صورت تجربی 400 ، 2000 ، 2000 را پیدا می کنیم تا به ترتیب برای ماشین های کوهستانی ، قطب سبد خرید و آکروبات کار کنیم. هیچ جستجوی گسترده ای از Hyperparameter انجام نشده است زیرا تمرکز کار ما عملکردی پیشرفته نیست بلکه برای مقایسه اهمیت روش ها به جای آن است. مقادیر پارامترها برای پیکربندی بدون ترفند به صورت دستی انتخاب می شوند و برای سایر تنظیمات محیط مربوطه ثابت نگه داشته می شوند.

مشابه مقاله اصلی ، ما از ضرر خطای میانگین مربع (MSE) بین مقادیر پیش بینی شده و bootstrap $ q استفاده می کنیم. برای بهبود پایداری آموزش DQN ، ضرر بین $ [-1 ، 1] $ گزارش شده است. ما این کار را برای همه محیط ها به جز قطب سبد خرید انجام می دهیم ، که بدون قطع شدن نتایج بهتری می گیرند. این خطا توسط آدم با نرخ یادگیری $ alpha = 0. 001 $ بهینه شده است. انتخاب بهینه ساز از مقاله اصلی منحرف می شود اما اخیراً موفقیت بزرگی در یادگیری عمیق نشان داده است. آزمایش های اضافی با مقادیر مختلف نرخ یادگیری و سهم قطع خطا برای کارهای آینده باقی مانده است.

نتایج

نتایج اصلی ما را می توان با ارقام زیر خلاصه کرد. هر شکل یک طرح پراکندگی را برای یک محیط نشان می دهد ، جایی که هر نقطه یک دوره آموزشی را نشان می دهد. هماهنگ X هر نقطه توسط حداکثر | $ q $ | که می تواند برای شناسایی واگرایی نرم استفاده شود ، داده می شود. مختصات Y میانگین بازده خود را در 20 قسمت آخر نشان می دهد ، که نشان دهنده عملکرد به دست آمده در آن اجرا است. این به ما امکان می دهد تا تأثیر ترفندها بر واگرایی و عملکرد کلی و همچنین نحوه تعامل این موارد را به طور همزمان تجزیه و تحلیل کنیم. ما ابتدا در مورد نتایج به دست آمده برای هر محیط به طور جداگانه بحث می کنیم ، که از آن نتیجه گیری های کلی تری می گیریم.

ماشین کوهستانی

برای شروع ، بیایید به نتایج اتومبیل کوهستانی در زیر نگاه کنیم.

عامل وانیل در یادگیری یک سیاست خوب از بدبختی دور می شود. عامل حافظه همچنین برای اکثر اجراها بد عمل می کند ، اما برای مقدار کمی از اجرای یک سیاست خوب را یاد می گیرد. به طور خاص برای اجراهایی که عامل حافظه متفاوت نیست ، در واقع بازده کلی خوبی را بدست می آورد. این یک مشاهده جالب است ، زیرا نشان می دهد که اندازه گیری ما از واگرایی در واقع پیش بینی عملکرد نهایی برای این محیط است.

عامل هدف موفق شده است واگرایی را به طور کامل از بین ببرد ، اما سیاستی که می آموزد ضعیف است. واگرایی به وضوح تضمینی برای عملکرد خوب نیست. همانطور که انتظار می رود ، شبکه با هر دو ترفند فعال بهترین عملکرد را انجام می دهد. این واگرایی نمی کند و به طور مداوم به پاداش های بالا می رسد. با این حال ، حتی نماینده DQN نیز اجرا شده است که چیزی یاد نمی گیرد. این نشان می دهد که خارج از کارهایی که ما کشف می کنیم ، ماشین کوهستانی نسبتاً دشوار است.

جبهه

اکنون نتایج محیط Acrobot را به دست می آوریم. برای وضوح ، ما از مقیاس ورود به سیستم برای مقادیر Q در اینجا استفاده می کنیم.

همانطور که با Mountain Car ، شبکه وانیل بدترین تنظیمات موجود در اینجا است. باز هم ، به شدت واژگون می شود و هیچ سیاستی معنی دار را یاد نمی گیرد. از طرف دیگر ، ما مشاهده می کنیم که عامل حافظه علی رغم نمایش واگرایی نرم ، می تواند سیاست های خوبی را پیدا کند. واریانس بازده آن بالاتر از روشهای دیگر است ، نشان می دهد که فرایند یادگیری آنقدر پایدار نیست. این نشان می دهد که میزان واگرایی نرم ، پروکسی ما برای واگرایی ، کاملاً نشانگر چگونگی یادگیری یک الگوریتم نیست.

دوباره می بینیم که استفاده از هر دو ترفند واگرایی را کاهش می دهد و منجر به بازده زیاد می شود. اگر فقط از شبکه هدف استفاده شود ، واگرایی دوباره کنترل می شود ، اما سیاست آموخته شده هنوز هم از استفاده از هر دو ترفند بدتر است.

قطب سبد

Cart Pole results

آخرین محیطی که ما به آن نگاه می کنیم محیط قطب سبد خرید است.

با وجود هر دو عامل وانیل و حافظه که واگرایی نرم دارند ، آنها هنوز هم می توانند سیاست های خوبی را بیاموزند. جالب اینجاست که اگرچه عامل حافظه بیشترین واگرایی را نشان می دهد ، اما به بازده متوسط بالاتر از سایر تنظیمات می رسد.

در راستای نتایج قبلی ، داشتن یک شبکه هدف تا حد زیادی واگرایی نرم را کاهش می دهد. با این حال ، بازده متوسط آن اکنون حتی پایین تر از عامل وانیل است. یک بار دیگر ، استفاده از هر دو ترفند واگرایی نرم را کنترل می کند و امکان یادگیری سیاست های خوب را فراهم می کند ، اما عامل حافظه در این حالت عملکرد بهتری دارد.

در چشم انداز

بنابراین ما از آزمایشات خود چه آموختیم؟در هر یک از سه محیطی که ما کاوش می کنیم ، هر بار عامل وانیل (نرم) منحرف می شود. ترفند شبکه هدف به طور قابل توجهی در کاهش این واگرایی و همچنین واریانس حداکثر | $ q $ | کمک می کند. در حقیقت ، در هنگام استفاده از یک شبکه هدف ، یک اجرا منحنی نیست. بدون شبکه هدف ، واگرایی تقریباً اجتناب ناپذیر به نظر می رسد. این به خصوص در شکل زیر روشن شده است ، که در توزیع حداکثر مقادیر $ q $ مطلق (در مقیاس ورود به سیستم) زوم می کند.

  • برای محیط آکروبات ، عامل حافظه قادر به یادگیری سیاست های خوب حتی در صورت نشان دادن واگرایی است. همین امر در مورد حافظه و عوامل وانیل در محیط قطب سبد خرید نیز وجود دارد. این تضاد با یافته های موجود در محیط ماشین کوهستانی است ، جایی که عامل حافظه فقط وقتی که واگرایی نمی کند ، سیاست خوبی را می آموزد. به نظر می رسد که واگرایی تأثیر بیشتری در عملکرد برای برخی از محیط ها نسبت به سایرین دارد. توضیحات احتمالی زیادی برای این امر وجود دارد ، از جمله:
  • ما فرض می کنیم که دشواری یک کار عامل مهمی در این فرآیند است. در ساده ترین محیط ، قطب سبد خرید ، به نظر نمی رسد که واگرایی از نظر عملکرد مسئله ای باشد. با این حال ، در محیط های سخت تر ، به نظر می رسد واگرایی بر کیفیت سیاست ها تأثیر می گذارد. در Acrobot ، واریانس عامل حافظه بسیار زیاد است و عملکرد آن در مقایسه با عامل DQN نیز کمتر است. در محیط ماشین کوهستانی ، مأمور نتوانست چیزی را برای هر کاری که واگرایی دارد بیاموزد. این ممکن است که هرچه کار دشوارتر می شود ، با داشتن تخمین دقیق ارزش Q اهمیت بیشتری پیدا می کند.

احتمال دیگر این است که متریک پروکسی ما برای اندازه گیری واگرایی ، حداکثر | $ q $ | ، خیلی پر سر و صدا است. این با پیگیری این مقدار برای هر انتقال به روزرسانی که در طی 20 قسمت گذشته مشاهده می شود ، محاسبه می شود. گرفتن حداکثر برای Outliers قوی نیست. اگر در یک حالت با یک ارزش بالای واحد روبرو شود ، در حالی که بیشتر حالت ها به خوبی رفتار می شوند ، این ممکن است تصویری بسیار ناچیز از واگرایی در اجرای آموزش ارائه دهد.

بینش مهم دیگر این است که افزودن پخش حافظه باعث بهبود عملکرد در تمام آزمایشات ما می شود. عامل هدف همیشه با افزودن مکانیسم پخش حافظه (در نتیجه عامل DQN) بهبود می یابد. این تأیید یافته های مقاله اصلی DQN را تأیید می کند ، که می گویند پخش مجدد حافظه منجر به تحقق بهتر II. D می شود. فرض داده ها ، متعاقباً اجازه نزول شیب را پیدا می کند تا بهینه بهتری پیدا کند.

به طور خلاصه ، شبکه های هدف از واگرایی در فرایند یادگیری جلوگیری می کنند. در حالی که پخش مجدد حافظه از واگرایی جلوگیری نمی کند ، این یک تکنیک مهم است که جستجو را به سمت سیاست های خوب راهنمایی می کند. ترکیب هر دو ترفند بهترین ها را در هر دو جهان به ما می دهد-یک تنظیم واگرایی کنترل شده با برآورد ارزش Q-Value.

سخنان نهایی

  • همیشه خوب است که به نتایج به دست آمده انتقادی نگاه کنیم. در این بخش پایانی ، ما برخی از محدودیت های رویکرد خود را برجسته می کنیم:
  • با توجه به محدودیت های ما در محاسبات و زمان ، ما یک جستجوی جامع Hyperparameter را در 3 محیط انتخاب شده خود انجام نمی دهیم. ما در تغییر فاکتور تخفیف و فرکانس به روزرسانی شبکه هدف متمرکز شدیم ، اما حتی برای کسانی که فقط چند مقدار را در نظر گرفتیم. این بدان معنی است که اگر ما مجموعه های مختلفی از هایپرپارامترها را انتخاب کنیم ، ممکن است رفتار مشاهده شده متفاوت باشد. در حالت ایده آل ، ما می خواهیم نتایج را نسبت به تنظیمات Hyperparameter بیشتر داشته باشیم.
  • با توجه به نکته قبلی ، ما فقط در تمام آزمایشات خود از یک شبکه عصبی بسیار کم عمق از 2 لایه استفاده می کنیم. این ممکن است باعث شود همه روشها حتی سخت تر یادگیری یک کار دشوار مانند کار ماشین کوهستانی داشته باشند.
  • ما 25 دانه را در هر تنظیم ارزیابی می کنیم. در حالی که این بهتر از 1 است ، ما با توجه به واریانس بالای روشهای یادگیری تقویت ، می خواهیم دانه های بیشتری برای نتیجه گیری داشته باشیم.
  • ما تصمیم می گیریم از یک پروکسی برای واگرایی ، واگرایی نرم استفاده کنیم. با وجود این پروکسی که از نظر تئوری با انگیزه خوب است ، اما هنوز هم یک پروکسی است. ما نمی دانیم که چگونه دقیقاً به واگرایی "واقعی" مربوط می شود.

همانطور که در بخش قبلی ذکر شد ، روش متریک ما برای واگرایی نرم ممکن است برای Outliers بسیار قوی نباشد. مطالعات آینده می تواند به نسخه های قوی تر متریک نگاه کند.

نتیجه گیری که ما به بالا می رویم کاملاً غیر منتظره نیست ، اما این واقعیت که پخش مجدد حافظه مانع از واگرایی نمی شود ، قطعاً یک بینش جالب است. از خواندن شما متشکرم!

پانویسها و منابع

استراتژی برای تجارت گزینه های...
ما را در سایت استراتژی برای تجارت گزینه های دنبال می کنید

برچسب : نویسنده : فریبا کامران بازدید : 40 تاريخ : دوشنبه 22 خرداد 1402 ساعت: 17:56