مهندسی نرم افزار
دانلود پروژه مطالعاتی درس یادگیری ماشین رشته مهندسی نرم افزار اتوماتای یادگیر تصادفی و الگوریتمهای یادگیر مقدمه فرآیند یادگیری موجودات زنده یكی از موضوعات تحقیقاتی جدید بشمار میآید. این تحقیقات به دو دسته كلی تقسیم میشوند. دسته نخست به شناخت اصول یادگیری موجودات زنده و مراحل آن میپردازند و دسته دوم بدنبال ارائه یك متدولوژی برای قرار دادن این اصول در یك ماشین میباشند. یادگیری بصورت تغییرات ایجادشده در كارایی یك سیستم بر اساس تجربههای گذشته تعریف میشود. یك ویژگی مهم سیستمهای یادگیر، توانایی بهبود كارایی خود با گذشت زمان است. به بیان ریاضی میتوان اینطور عنوان كرد كه هدف یك سیستم یادگیر بهینهسازی وظیفهای است كه كاملا شناخته شده نیست. بنابراین یك رویكرد به این مساله، كاهش اهداف سیستم یادگیر به یك مساله بهینهسازی است كه بر روی مجموعهای از پارامترها تعریف میشود و هدف آن پیدا كردن مجموعه پارامترهای بهینه میباشد. در بسیاری از مسائل مطرح شده، اطلاعی از پاسخهای صحیح مساله ( كه یادگیری با نظارت به آنها نیاز دارد) در دست نیست. بهمین علت استفاده از یك روش یادگیری بنام یادگیری تقویتی مورد توجه قرار گرفته است. یادگیری تقویتی نه زیر مجموعه شبكههای عصبی است و نه انتخابی بجای آنها محسوب میشود. بلكه رویكردی متعامد برای حل مسائل متفاوت و مشكلتر بشمار میرود. یادگیری تقویتی، از تركیب برنامهنویسی پویا و یادگیری نظارتی برای دستیابی به یك سیستم قدرتمند یادگیری ماشین استفاده میكند. در یادگیری تقویتی هدفی برای عامل یادگیر مشخص میشود تا به آن دست یابد. آنگاه عامل مذكور یاد میگیرد كه چگونه با آزمایشهای صحیح و خطا با محیط خود، به هدف تعیین شده برسد. در یادگیری تقویتی یك عامل یادگیرنده در طی یادگیری با فعل و انفعالات مكرر با محیط، به یك سیاست كنترل بهینه میرسد. كارایی این فعل و انفعالات با محیط بوسیله بیشینه(كمینه) بودن پاداش (جریمه) عددی كه از محیط گرفته میشود، ارزیابی میگردد. علاوه بر این در روشهای یادگیری تقویتی، اولا استفاده از یادگیری روش ساده، سیستماتیك و واقعی برای رسیدن به یك جواب تقریبا بهینه را بیان میكند.(پیدا كردن این جواب بهینه با استفاده از روشهای سنتی بسیار مشكل است.) ثانیا، دانشی كه در طی فرایند یادگیری بدست میآید، در یك مكانیزم نمایش دانش مانند شبكه عصبی یا جدول مراجعه ذخیره میشود كه از طریق آن میتوان با محاسبات اندك و با كارایی بالایی عمل تخصیص كانال را انجام داد. ثالثا، از آنجاییكه این روش یادگیری در محیطی بلادرنگ در حال انجام است، میتوان آنرا همزمان با فعالیت محیط (مانند شبكه سلولی) انجام داد. كه در این حالت با تمام رخدادهای پیشبینی نشده بصورت یك تجربه جدید برخورد میشود كه میتوان از آنها برای بهبود كیفیت یادگیری استفاده كرد. مزیت اصلی یادگیری تقویتی نسبت به سایر روشهای یادگیری عدم نیاز به هیچگونه اطلاعاتی از محیط (بجز سیگنال تقویتی) است. یكی از روشهای یادگیری تقویتی، اتوماتای یادگیر تصادفی است. اتوماتای تصادفی بدون هیچگونه اطلاعاتی درباره اقدام بهینه (یعنی با در نظر گرفتن احتمال یكسان برای تمامی اقدامهای خود در آغاز كار) سعی در یافتن پاسخ مساله دارد. یك اقدام اتوماتا بصورت تصادفی انتخاب میشود، در محیط اِعمال میگردد. سپس پاسخ محیط دریافت شده و احتمال اقدامها بر طبق الگوریتم یادگیری بِروز میشوند و روال فوق تكرار میگردد. اتوماتای تصادفی كه بصورت فوق در جهت افزایش كارایی خود عمل كند، یك اتوماتای یادگیر تصادفی گفته میشود. در ادامه این مقاله به معرفی اتوماتای یادگیر تصادفی پرداخته می شود. کلمات کلیدی: آتاماتای یادگیر یادگیری ماشین یادگیری تقویتی سیستمهای یادگیر فهرست مطالب 1. مقدمه 3 1.1. تاریخچه اتوماتای یادگیر 5 2. اتوماتای یادگیر 6 2.1. اتوماتای تصادفی 7 2.2. محیط 8 2.3. معیارهای رفتار اتوماتای یادگیر 10 2.4. الگوریتمهای یادگیر 12 2.4.1. الگوریتمهای یادگیر استاندارد 12 2.4.2. الگوریتمهای یادگیری مدل-S 14 2.5. اتوماتای یادگیر با اقدامهای متغیر 16 2.6. اتوماتای یادگیر توزیع شده 17 3. اتوماتای یادگیر واكنشی 18 3.1. اتوماتای یادگیر واكنشی توزیع شده 20 4. کوتاهترین مسیر در گراف های تصادفی با اتوماتای یادگیر توزیع شده 21 5. حل مساله فروشنده دورهگرد احتمالی با اتوماتای یادگیر توزیع شده 24 5.1. تابع هدف مساله فروشنده دورهگرد احتمالی 24 5.2. الگوریتم پیشنهادی[4] 27 6. مراجع 36