در این داستان سعی خواهیم کرد تجزیه و تحلیل داده های اکتشافی را در مجموعه داده های قیمت طلا موجود در Kaggle. com انجام دهیم. و ما ساختمان مدل را در داستان بعدی پوشش خواهیم داد. این تحت نظارت یادگیری ماشین خواهد بود و این مدل سعی خواهد کرد مشکل رگرسیون را مانند پیش بینی قیمت های طلا بر اساس سایر قیمت های سهام حل کند. برای همین می توانید زیر لینک YouTube را بررسی کنید.
ما در مراحل زیر علوم داده کار خواهیم کرد.
اولین مورد جمع آوری داده ها است که در آن مجموعه داده ها را از Kaggle. com بارگیری می کنیم و مجموعه داده ها را با استفاده از کتابخانه Pandas می خوانیم. ما قبلاً مجموعه داده ها را از kaggle. com بارگیری کرده ایم. اکنون برای خواندن مجموعه داده باید کد پایتون را بنویسیم.
مورد بعدی EDA خواهد بود که در آن ما تجزیه و تحلیل داده های اکتشافی را در داده های داده ارائه خواهیم داد و برخی از آنها را به دست می آوریم.
سوم ، مهندسی ویژگی است که در آن سعی خواهیم کرد مانند مقادیر گمشده ، ویژگی های طبقه بندی شده ، حذف فضای باز و در صورت لزوم نیز ویژگی های جدیدی ایجاد کنیم.
دوم دوم انتخاب مدل است. در این مرحله ما فناوری انتخاب مدل را با استفاده از اعتبار سنجی kfold Cross و Grid SearchCV یا Tech Tuning Tuning Parameter Hyper SearchCV انجام خواهیم داد
و سرانجام ما مدل خواهیم ساخت.
ما از نوت بوک Jupyter برای نوشتن برنامه یادگیری ماشین استفاده خواهیم کرد. بیا شروع کنیم.
برای خواندن مجموعه داده ها و اجرای EDA و نمودار ، کتابخانه ها را وارد کنید
برای خواندن مجموعه داده ها قاب داده ایجاد کنید و مقدار DataFrame را بررسی کنید
ساختار DataFrame و شکل آن را بررسی کنید
بیایید ستون های عددی DataFrame را شرح دهیم
تجزیه و تحلیل داده های اکتشافی
ما مراحل زیر را در EDA اجرا خواهیم کرد
- ستون های ناخواسته را پیدا کنید
- مقادیر گمشده را پیدا کنید
- ویژگی هایی را با یک مقدار پیدا کنید
- ویژگی های طبقه بندی شده را کاوش کنید
- توزیع ویژگی های طبقه بندی شده را پیدا کنید
- رابطه بین ویژگی های طبقه بندی و برچسب
- ویژگی های عددی را کاوش کنید
- ویژگی های عددی گسسته را پیدا کنید
- رابطه بین ویژگی های عددی گسسته و برچسب ها
- ویژگی های عددی مداوم را پیدا کنید
- توزیع ویژگی های عددی مداوم
- رابطه بین ویژگی های عددی مداوم و برچسب ها
- در ویژگی های عددی Outiers را پیدا کنید
- همبستگی بین ویژگی های عددی را کاوش کنید
بردن :
- برای این مورد ویژگی تاریخ را در نظر نمی گیریم و از این رو این ویژگی را در بخش مهندسی ویژگی ها کنار می گذاریم.
2. مقادیر گمشده را پیدا کنید
بردن :
3. ویژگی هایی را با یک مقدار پیدا کنید
بردن :
- هیچ ویژگی فقط با یک مقدار
4- ویژگی های طبقه بندی شده را کاوش کنید
بردن :
- یک ویژگی غیر عددی با تمام مقادیر منحصر به فرد وجود دارد و از این رو دو مرحله بعدی کاربردی نیست.
5. توزیع ویژگی های طبقه بندی شده را پیدا کنید
Take-Away: NA
6. رابطه بین ویژگی های طبقه بندی و برچسب
Take-Away: NA
7. ویژگی های عددی را کاوش کنید
بردن :
8. ویژگی های عددی گسسته را پیدا کنید
بردن :
- هیچ متغیرهای گسسته ای در داده های داده وجود ندارد
9. رابطه بین ویژگی ها و برچسب های عددی گسسته
10. ویژگی های عددی مداوم را پیدا کنید
بردن :
- 4 ویژگی عددی مداوم وجود دارد
11. توزیع ویژگی های عددی مداوم
بردن :
- به نظر می رسد SPX ، SLV و EUR/USD به طور عادی توزیع شده است
- USO به شدت به سمت راست چسبانده شده است و به نظر می رسد برخی از مسافت های دور است.
12. رابطه بین ویژگی های عددی مداوم و برچسب ها
بردن :
- به نظر می رسد ویژگی SLV به صورت خطی با GLD در حال پیشرفت است
13. در ویژگی های عددی دور از دسترس را پیدا کنید
بردن :
- به نظر می رسد USO و SLV دارای برخی از افراد دور است
14. همبستگی بین ویژگی های عددی را کاوش کنید
بردن :
- به نظر می رسد ویژگی SLV به شدت با GLD ارتباط دارد
این در حال حاضر همه است ، امیدوارم که شما درک کرده اید که چگونه EDA را انجام دهید. در داستان بعدی ما سعی خواهیم کرد تا مدل را برای پیش بینی قیمت طلا بسازیم. اگر این داستان را دوست دارید ، لطفاً این داستان را با دوستان خود نظر دهید و به اشتراک بگذارید. متشکرم.
استراتژی برای تجارت گزینه های...
ما را در سایت استراتژی برای تجارت گزینه های دنبال می کنید
برچسب :
نویسنده : فریبا کامران
بازدید : 27
تاريخ : پنجشنبه
16 شهريور
1402 ساعت: 12:16