تعریف مدل آماری رگرسیون

رگرسیون تجزیه و تحلیل رابطه بین متغیرها

رگرسیون یک روش داده کاوی است که برای پیش بینی طیف وسیعی از مقادیر عددی (همچنین به عنوان مقادیر پیوندی ) مورد استفاده قرار می گیرد، با توجه به یک مجموعه داده خاص. برای مثال، رگرسیون ممکن است برای پیش بینی هزینه یک محصول یا خدمات با توجه به متغیرهای دیگر مورد استفاده قرار گیرد.

رگرسیون در صنایع مختلف برای برنامه ریزی کسب و کار و بازاریابی، پیش بینی مالی، مدل سازی زیست محیطی و تجزیه و تحلیل روند استفاده شده است.

رگرسیون در مقابل طبقه بندی

رگرسیون و طبقه بندی تکنیک های داده کاوی مورد استفاده برای حل مشکلات مشابه هستند، اما اغلب گیج می شوند. هر دو در تحلیل پیش بینی استفاده می شوند، اما برای پیش بینی مقدار عددی یا پیوسته مورد استفاده قرار می گیرد، در حالی که طبقه بندی داده ها را به دسته های گسسته اختصاص می دهد.

به عنوان مثال، رگرسیون می تواند برای پیش بینی ارزش یک خانه بر اساس مکان آن، فوت مربع، قیمت در زمان آخرین فروخته شده، قیمت خانه های مشابه و عوامل دیگر مورد استفاده قرار گیرد. طبقه بندی اگر شما بخواهید خانه ها را به دسته ها، مانند راه رفتن، حجم زیادی یا میزان جرم، سازماندهی کنید، مناسب است.

انواع تکنیک های رگرسیون

ساده ترین و قدیمی ترین فرم رگرسیون، رگرسیون خطی است که برای برآورد رابطه بین دو متغیر استفاده می شود. این تکنیک از فرمول ریاضی یک خط مستقیم (y = mx + b) استفاده می کند. به عبارت ساده، این به سادگی به این معنی است که با توجه به یک گراف با Y و یک محور X، رابطه بین X و Y یک خط مستقیم با چند ناقل است. به عنوان مثال، ما ممکن است فرض کنیم که با توجه به افزایش جمعیت، تولید غذا با همان میزان افزایش می یابد - این به یک رابطه قوی و خطی بین دو رقم نیاز دارد. برای تجسم این، یک نمودار را در نظر بگیرید که در آن محور Y کاوش را افزایش می دهد و محور X تولید مواد غذایی را دنبال می کند. همانطور که Y مقدار افزایش می یابد، مقدار X با همان سرعت افزایش می یابد، و رابطه بین آنها یک خط مستقیم است.

از تکنیک های پیشرفته مانند رگرسیون چندگانه، بین متغیرهای چندگانه رابطه ای پیش بینی می شود - مثلا آیا رابطه بین درآمد، تحصیلات و جایی که فرد تصمیم می گیرد زندگی کند؟ اضافه کردن متغیرها به طور قابل توجهی پیچیدگی پیش بینی را افزایش می دهد. انواع متعددی از تکنیک های رگرسیون چندگانه شامل استاندارد، سلسله مراتبی، مرتبه و گام به گام، هر کدام با نرم افزار خاص خود وجود دارد.

در این مرحله، مهم است بدانیم که چه می خواهیم پیش بینی کنیم (متغیر وابسته یا پیش بینی شده ) و داده هایی که ما برای پیش بینی استفاده می کنیم (متغیر مستقل یا پیش بینی کننده ). در مثال ما می خواهیم پیش بینی موقعیت مکانی که در آن زندگی می کند (متغیر پیش بینی شده ) درآمد و آموزش داده شده (هر دو متغیر پیش بینی کننده ).