تهیه کنندگان: شیوا بهادری زینب لیاقت محسن یزدی نژاد - PDF

Description
تهیه کنندگان: شیا بهادری زینب لیاقت محسن یزدی نژاد 1 بازی شطرنج در یادگیری یادگیری با ناظر رش مناسبی نیست: تعداد حالت ها حرکات بسیار زیاد است. همیشه چیزی به عنان بهترین حالت جد بدن حرکت در ادامه مشخص می

Please download to get full document.

View again

of 73
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Economy & Finance

Publish on:

Views: 16 | Pages: 73

Extension: PDF | Download: 0

Share
Transcript
تهیه کنندگان: شیا بهادری زینب لیاقت محسن یزدی نژاد 1 بازی شطرنج در یادگیری یادگیری با ناظر رش مناسبی نیست: تعداد حالت ها حرکات بسیار زیاد است. همیشه چیزی به عنان بهترین حالت جد بدن حرکت در ادامه مشخص می شد. خب بلکه ندا 2 یادگیری robo از mze برای خرج Robo باید با دنباله ای از حرکات باال پایین چپ mze خارج شد. تا زمانی که به finish نرسد هیچ پاداشی دریافت نمی در اینجا حریف زمان است. راست کند. از 3 فق مثال د مشترک نکات (gen) Decision mker Environmen Se Acion Rewrd اینجا مفهم bes در یک حرکت خالصه نمی cumulive rewrd ماکزیمم شد. باید بلکه شد 4 تقیتی یادگیری یادگیری تقیتی راهی برای آمزش عامل ها با استفاده از پاداش دادن تنبیه کن بدن مشخص کن نحه انجام عمل با استفاده از رش های آماری یا dynmic progrmming 5 RL هسیاقم اب یریگدای اب رظان یریگدای یتیقت د هبنج اب یریگدای اب رظان تافت :دراد.1 لاثم یاه یریگدای ترصب /یدر یجرخ تسین لب دعب ماجنا کی لمع شاداپ تفای دنکیم هب هلحرم دعب.دریم لماع یمن دناد نیرتهب.تسیچ لمع لب دیاب لط نامز تاعلاطا یفاک درم تلاح اه لمع یاه نکمم لاقتنا شاداپ عمج یرآ دنک درکلمع هنیهب ار دای.دریگب.2 متسیس دیاب ییاراک نیلانآ یئلااب هتشاد دشاب اریز. بلغا یبایزرا متسیس اب لمع یریگدای رطب نامزمه ترص یم.دریذپ 6 مقایسه RL ناظر با یادگیری با Supervised Lerning: Exmple Clss Reinforcemen Lerning: Siuion Rewrd Siuion Rewrd 7 هصخشم یاه یلصا یریگدای یتیقت هب لماع هتفگ دش یمن هچ یلمع ار دیاب ماجنا.دهد جتسج رب ساسا یعس اطخ ماجنا یم.دش لماع یعس دنکیم یلامعا ار دای دریگب نیرتشیب شاداپ ار دیلت.دننکیم شاداپ عن یریخات :تسا نیا ر تسد یاهدرآ هاتک تدم یادف یایازم دنلب تدم رت.دنشیم دیاب نیب شاک درام دیدج هدافتسا شناد یلبق بسانت داجیا.دمن explore or exploi هلئسم ار ترصب کی لماع دنمفده اب کی طیحم نیعمان طابترا تسا یم.دنیب 8 تقیتی یادگیری مسئله کلی ساختار عامل محیط ضعیت پاداش عمل یادگیری سیاست ( s, ) Pr{ s s} 9 طیحم RL لماع ریگدای رطب یعس اطخ اب کی طیحم ایپ ریگ هدش دای یم دریگ یارب ره تیعقم هچ یلمع ار ماجنا.دهد نیا طیحم دیاب لباق هدهاشم ای لقادح ات یتمسق لباق هدهاشم یارب لماع. (prilly observble) دشاب هدهاشم طیحم نکمم تسا قیرط ندناخ تاعلاطا کی رسنس حیضت کیلبمس هریغ.دشاب تلاح هدیا لا لماع دیاب رطب لماک اق هب هدهاشم طیحم دشاب اریز بلغا یرئت یاه هطبرم رب ساسا نیا ضرف انب هدش.دنا 10 طیحم )S(طیحم هعمجم تلااح نکمم ره هظحل لماع دناتیم یکی A لمع نکمم ار ماجنا.دهد لماع لباقم لمع ای هعمجم یا لامعا r شاداپ ار تفای یم دنک ای r دحا هیبنت.دش یم طیحم دناتیم ریغ یعطق (non deerminisic).دشاب ینعی ماجنا کی لمع هباشم کی تیعض ناسکی هجیتن تافتم هتشاد.دشاب اب نیا دج طیحم ترصب sionry ضرف یم.دش ینعی لامتحا رییغت تیعض ای تفای شاداپ لط نامز ناسکی ضرف.دش یم 11 رفتار عامل عامل در محیط حرکت که حالتها پاداشهای مربطه را به خاطر می سپا. عامل سعی می کند طری رفتار کند که تابع پاداش را ماکزیمم نماید. 12 شاداپ رگا هلابند یا شاداپ اه ترصب ریز دجم :دنشاب لماع دیاب یعس دیامن ات یشاداپ ار طیحم تفای دنکیم رثکادح.دیامن عقا دیما یضایر شاداپ ار هب رثکادح.دناسریم یرایسب لیاسم لماعت اب طیحم ترصب یدزیپا.تسا لاثم یتابر رارق تسا جرخ قاتا ار دای دریگب هب ضحم ندش جراخ قاتا کی دزیپا همتاخ یریگدای یم.دبای { } r E...,, r r r رظن نتفرگ شاداپ یاه هدنیآ رگا R شاداپ عمجم یشاداپ دشاب لماع اب عرش نامز دناتیم عمج دنک هب قرط فلتخم ناتیم نیا شاداپ ار هبساحم.دمن کی هار ترصب ریز تسا نآ هب شاداپ یاه رتکیدزن شزرا یرتشیب هداد.دشیم k k k r r r r R R k k k r r r r R لدم یاه درکلمع هنیهب.1 finie horizon هداس نیرت لدم نیا تسا لماع یارب باختنا لمع ریداقم یشاداپ ار h هلحرم دعب دریگیم هبساحم هدمن یلمع ار باختنا دیامن عمجم شاداپ رثکادح ار.دیامن (discouned cumulive rewrd) infinie horizon.2 نیا شر یاجب h هلحرم شاداپ تدم یتفای رظن هتفرگ.دشیم نیا شر رایسب مسرم هدب هب ییاهشاداپ هدنیآ هتفرگ دهاخ دش شزرا یرتمک تبسن هب یاهشاداپ یرف هداد.دشیم ) ( k k k r r r r S V h k k S r V 0 ) ( ) ( k k k r r r r S V h k k S r V 0 ) ( بهینه عملک های مدل )ادامه( verge rewrd این رش فرقی بین پاداشهای نمیشد. در نزدیک در در نظر گرفته h 1 V h 0 V h k 0 ( S ) lim h r kh 1 ( S ) lim h r k k 16 طخ یشم تسایس ای ضرف یم مینک لامعا لماع ینناق لثم تیعبت دنکیم نآ ار طخ یشم policy ای یم.میمان اجنآ R کی ریغتم یفداصت تسا اذل دیما یضایر نآ تحت کی طخ یشم صاخ یارب کی تلاح نیعم ربارب دهاخ دب :اب 17 فده یریگدای یتیقت نیا تسا کی طخ یشم هنیهب لثم * ادیپ دیامن رادقم دیما یضایر قف ار یارب یمامت تلااح ممیزکام.دنک, } { 0 1, S r E S R E S V k k k, } { 0 1, S r E S R E S V k k k یادگیری خط یا سیاست مشی در اقع RL سعی دا عامل سیاست خد را تغییر داده پاداش بیشتری کسب نماید. را ادار کند طری رفتار در اثر تجربه با محیط نماید که در دراز مدت تقیتی یادگیری کلی الگریتم i. Iniilise lerner s inernl se ii. Do forever (!?):. Observe curren se s b. Choose cion using some evluion funcion c. Execue cion d. Le r be immedie rewrd, s new se e. Upde inernl se bsed on s,,r,s تقیتی یادگیری اناع Model-Bsed Lerning Vlue Ierion Policy Ierion Temporl Difference Lerning Explorion Sregies Deerminisic Rewrds nd Acions Nondeerminisic Rewrds nd Acions Eligibiliy Trces 20 Model-Bsed Lerning قتی اطالعات کاملی از محیط در اختیار داشته باشیم دیگر احتیاجی به explorion نیست. مستقیما مقدار سیاست بهینه را برای هر حالت با استفاده از Dynmic Progrmming بدست می آریم. unique Opiml Vlue Funcion است. قتی Opiml Vlue Funcion را داریم سیاست بهینه انتخاب عملی است که vlue را در حالت بعدی ماکزیمم کند. 21 Vlue Ierion برای یافتن سیاست بهینه Policy( )Opiml از تابع مقدار بهینه Funcion( )Opiml Vlue استفاده می کنیم. الگریتم زیر با عنان *V Vlue Ierion را پیدا می کند. 22 Vlue Ierion که: افتد می اتفاق زمانی همگرایی الگریتم این زمانی پیچیدگی است. O S 2 A 23 Policy Ierion این الگریتم کند. می رزرسانی به نگهداری مقدار جای به را سیاست 24 Policy Ierion با یک سیاست شرع که مرتبا آن را بهبد می بخشیم. اگر بهبدی حاصل نشد متقف می شیم. Vlue Funcion از طریق حل یک معادله ی خطی بدست می آید. سپس چک می حالت برگزید یا کنیم که نه. پیچیدگی زمانی این الگریتم آیا می تان سیاست بهتری را در این O A SS S S 3 است. 25 Dynmic progrmming لح کی هلئسم دنچ هریغتم قیرط لح هعمجم یا لئاسم کت هریغتم یانبم dynmic progrmming رب هیاپ لصا یگنیهب Bellmn هدش انب تسا نیا لصا نایب دنکیم کی طخ یشم هنیهب دیاب ندب هجت هب تلاح هیلا تامیمصت هیلا اب رظن نتفرگ تلاح داجیا هدش تامیمصت هیلا طخ هب یشم هنیهب.دنسرب 26 Dynmic Progrmming Dynmic Progrmming عقا یشر تسا یارب لح کی هلئسم نیرخآ تلاح نکمم عرش هدرک هچنآ ار نآ تلاح ناکما ریذپ تسا یسررب یم دنک سپس اب هدافتسا تاعلاطا تسدب هدمآ ضرف ندب نیرخآ تلاح هب لح تلاح لبقام رخآ یم ددرپ نیا راک یارب تلاح یاه لبق نآ همادا یم.دبای 27 یادگیری خط مشی.1.2 اگر چه هدف نهائی یادگیری تقیتی یادگیری تابعی بصرت *:SA است با این جد در عمل انجام آن بسیار مشکل است زیرا مثال ها بصرت s, عرضه نمی شند. برای یادگیری خط مشی از د تکنیک زیر استفاده خاهیم ک: Vlue Funcion Q Vlue 28 Vlue Funcion رادقم کی تلاح ترابع تسا عمجم رادقم یشاداپ اب عرش نآ تلاح یریپ طخ یشم یصخشم هب تلاح یئاهن متخ دش تفای.ددرگیم عبات رادقم ای Vlue Funcion ترابع تسا یتشاگن ses se vlues هب یم دنات طست ره بیرقت هدننز عبات ریظن کی بش یبصع نیمخت هدز.دش 29 لاثم کی MDP هلئسم 16 اب تلاح لماع 4 یاراد لمع فلتخم :تسا تکرح هب پچ تسار لااب نیئاپ شاداپ یارب یمامت تکرح اه -1 ربارب.تسا فده ندیسر هب د هشگ تمس تسار نیئاپ ای هشگ تمس پچ.تسلااب ریداقم ناشن هداد هدش رادقم درم راظتنا یارب ره تلاح ترص ماجنا کی تکرح یفداصت یارب ندیسر هب فده.تسا 30 The opiml vlue funcion در شکل مقابل مقادیر بهینه حالت ها نشان داده شده است. در صرتی که امکان بدست آن این مقادیر جد داشته باشد می تان با انجام یک جستج به opiml policy نیز دست یافت. در یادگیری تقیتی بجای یافتن خط مشی بهینه که مدل کن آن می تاند مشکل باشد می تان تالش نمد تا مقدار تابع بهینه حالت ها را بدست آ. The opiml vlue funcion The opiml policy 31 مثال Vlue Ierion wih primiive cions (cell-o-cell) V(gol )=1 Ierion #1 Ierion #2 Ierion #3 wih behviors (room-o-room) V(gol )=1 Ierion #1 Ierion #2 Ierion #3 Approximing he Vlue Funcion یریگدای یتیقت راک هداس یا تسین اریز لماع لباقم یراک ماجنا دهدیم خساپ یمیقتسم تفای.دنکیمن یارب لاثم یلماع دهاخیم قیرط هیبش یس کی امیپاه ار تیاده دیامن ره هظحل ربجم تسا ات میمصت دیدج دریگب رگا دعب نارازه لمع امیپاه طقس دیامن لماع هنگچ دناتیم یلمع هب طقس امیپاه رجنم هدش ار یئاسانش دیامن 33 Approximing he Vlue Funcion Dynmic Progrmming اجنیا اب یفرعم د لصا هداس یعس هئارا هار لح یم :دیامن رگا یلمع ماجنا دش هلصافلاب رجنم هب هجیتن یدب ریظن طقس امیپاه ددرگ لماع دیاب دای دریگب تاعفد یدعب تلاح هباشم نآ لمع ار رارکت.دنکن اذل لماع دیاب یلمع هلصافلاب لبق طقس امیپاه ماجنا هداد دب زیهرپ.دنک رگا یلمع کی تیعقم صاخ رجنم هب هجیتن یدب دش دیاب رارق نتفرگ نآ تیعقم زیهرپ.دمن نیاربانب رگا رارق نتفرگ تهج تیعقم یصاخ رجنم هب طقس امیپاه دش لماع دای دریگیم ماجنا یتایلمع رجنم هب رارق نتفرگ امیپاه نینچ یطیارش یم دندرگ ریهرپ دیامن. 34 بیرقت Vlue Funcion عبات رگا ناتب ریداقم V* یبیرقت ار طست کی لدج ناشن داد نیا ترص یم نات یارب تسدب ندرآ نآ نیا لدج ار براج هدمن رطب مادم رادقم تلاح اه ار قبط هطبار ریز رییغت.داد نیا راک ات ینامز یرییغت لدج خر دهدن رارکت.دش یم یارب ماجنا نینچ یلمع لدم یکیمانید متسیس مزلا دهاخ.دب 35 تسدب تسایس ندرآ هنیهب اب یریگدای ریداقم یم نات نآ یارب یجتسج نیرتهب لمع هدافتسا.دمن همزلا نیا راک نتسناد عبات رادقم r.تسا تلاح یلک یارب لماع هتخانشان دنتسه باختنا لمع ار لکشم یم.دنس اذل دیاب کینکت یاه یرگید هدافتسا.دمن 36 ))}, ( ( ), ( rg mx{ ) ( * * s V s r s ))}, ( ( ), ( rg mx{ ) ( * * s V s r s Temporl Difference Lerning در یادگیری TD از اختالف بین مقدار حالت فعلی حالت بعد از آن استفاده میشد.این امر را میتان به اختالف بین حالت فعلی چند حالت بعدی تعمیم داد. 37 Explorion Sregies استفاده از جست با احتمال )explore( احتمال با جی یک cion به صرت بهترین cion انتخاب انتخاب تصادفی می شد. شد. می )exploi( -greedy تیصاخ فکرام تیعض هلحرم S یمامت تاعلاطا مزلا ار رایتخا لماع رارق.دهدیم ینعی لماع هب تاعلاطا یرگید ین.درادن ترابعب رگید رارق نتفرگ کی تیعض هب یانعم هصلاخ نتشاد هتشذگ لماع تسا یین تسین ات هتشذگ زیچ نآ یرگید.مینادب شیامن کی تیعض دناتیم لماش یاهیدر یرف یاهیدر شدرپ هدش یاهراتخاس ای هداد یا دشاب لط نامز یر یدر یاه هدش سح هدش لیکشت.دنشاب 39 Mrkov Decision Processes اگر یک مسئله یادگیری تقیتی دارای خاصیت مارکف باشد میتان آنرا یک (MDP) Mrkov Decision Process دانست. اگر تعداد حالت ها عملها محددباشند مسئله بصرت finie MDP خاهد بد که با اجی زیر تعریف یشد: se nd cion ses one-sep dynmics defined by rnsiion probbiliies: rewrd expecions: 40 Mrkov Decision Processes (MDPs) در مسائل MDP S حالت مج را انجام A عمل مج با شرایطی ماجه هستیم درمحیط تشخیص دهد. می باشد. که این عامل میتاند عامل قادر به در هر لحظه عامل حالت s را تشخیص داده عمل را انجام میدهد. محیط در پاسخ به این عمل پاداش ) r s)=, را به عامل میدهد به حالت بعدی ) s +1 =(s, میرد. تابع r, جزئی از محیط بده برای عامل ناشناخته هستند. 41 An Exmple Finie MDP Recycling Robo A ech sep, robo hs o decide wheher i should (1) cively serch for cn, (2) wi for someone o bring i cn, (3) go o home bse nd rechrge. Serching is beer bu runs down he bery; if runs ou of power while serching, hs o be rescued (which is bd). Decisions mde on bsis of curren energy level: high, low. Rewrd = number of cns colleced 42 Recycling Robo MDP 43 Dynmic Progrmming (P nd R). در اقع DP رشی برای حل مسایل MDP است. این رش نیازمند دانستن دینامیک کامل سیستم پیاده سازی آن پرهزینه معمال غیر عملی است با مشکل نفرین ابعادی ربرست تضمین شده که همگرا خاهد شد. میتان RL را یک تقریب برخط برای DP دانست. نیازی به دانستن R,P ندا در فضای حالت به نمنه باری میپازد. تئریهائی در م همگرائی آن جد دا. 44 Reinforcemen lerning exmple Sr S 2 S 4 S 3 Arrows indice srengh beween wo problem ses Sr mze S 8 S 7 S 5 Gol Sr S 2 The firs response leds o S2 S 4 S 8 S 3 S 7 The nex se is chosen by rndomly smpling from he possible nex ses weighed by heir ssociive srengh Associive srengh = line widh S 5 Gol Sr S 2 S 4 S 3 Suppose he rndomly smpled response leds o S3 S 8 S 7 S 5 Gol Sr S 2 S 4 S 3 A S3, choices led o eiher S2, S4, or S7. S7 ws picked (rndomly) S 8 S 7 S 5 Gol Sr S 2 By chnce, S3 ws picked nex S 4 S 3 S 8 S 7 S 5 Gol Sr S 2 Nex response is S4 S 4 S 3 S 8 S 7 S 5 Gol Sr S 2 And S5 ws chosen nex (rndomly) S 4 S 3 S 8 S 7 S 5 Gol Sr S 2 And he gol is reched S 4 S 3 S 8 S 7 S 5 Gol Sr S 2 S 4 S 3 Gol is reched, srenghen he ssociive connecion beween gol se nd ls response S 8 S 7 Nex ime S5 is reched, pr of he ssociive srengh is pssed bck o S4... S 5 Gol Sr S 2 Sr mze gin S 4 S 3 S 8 S 7 S 5 Gol Sr S 2 Le s suppose fer couple of moves, we end up S5 gin S 4 S 3 S 8 S 7 S 5 Gol Sr S 2 S5 is likely o led o GOAL hrough srenghened roue S 4 S 3 In reinforcemen lerning, srengh is lso pssed bck o he ls se S 8 S 7 This pves he wy for he nex ime going hrough mze S 5 Gol Sr S 2 The siuion fer los of resrs S 4 S 3 S 8 S 7 S 5 Gol Q-lerning Vlue الگریتم یافته گسترش حالت Q-lerning Ierion است برای مسایل nondeerminisic نیز بکار می رد. یادگیری Q-lerning نعی از یادگیری تقیتی بدن مدل است که بر پایه برنامه ریزی پیای اتفاقی عمل می کند. 58 Q-lerning Q Lerning یریگدای یاجب ماجنا کی تشاگن تلاح اه هب ریداقم تلاح اه یتشاگن جز se/cion هب یریداقم Q-vlue هدیمان دنش یم ماجنا یم.ددرگ Q-Funcion هب ره تلاح جز لمع کی Q(s,) رادقم تبسن هداد یم دش نیا. رادقم ترابع تسا عمجم شاداپ یاه تفای هدش یتق S تلاح عرش لمع ار ماجنا لابندب نآ طخ یشم دجم ار لابند هدرک.میشاب تافت نیا شر اب یلبق تساجنیا یین هب ماجنا یمامت لامعا نکمم کی تلاح.تسین 59 متیرگلا Q یریگدای یارب یریگدای عبات Q یم نات یلدج هدافتسا درک ره یدر نآ کی جز s, هب هارمه یبیرقت تسا لماع رادقم Q یعقا تسدب هدرآ.تسا ریداقم نیا لدج اب رادقم هیلا (رفص لامعم) یفداصت رپ.دش یم لماع رطب بانتم تیعض S یلعف ار صیخشت هداد یلمع لثم ار ماجنا یم.دهد سپس شاداپ r(s,) هلصاح نینچمه تلاح دیدج یشان ماجنا s =(s,
Related Search
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks