طبقه بندی در داده کاوی

طبقه بندی یک روش داده کاوی است که دسته را به مجموعه ای از داده ها اختصاص می دهد تا به پیش بینی ها و تحلیل های دقیق تر کمک شود. بعلاوه گاهی اوقات به نام " Decision Tree " نامیده می شود، طبقه بندی یکی از روش های متفاوتی است که در آن تجزیه و تحلیل مجموعه داده های بسیار بزرگ موثر است.

چرا طبقه بندی؟

پایگاه داده های بسیار بزرگ در حال حاضر به عنوان "داده های بزرگ" در جهان امروزه تبدیل شده است. تصور کنید یک پایگاه داده با چند ترابایت داده - ترابایت یک تریلیون بایت داده است.

فیس بوک به تنهایی 600 ترابایت اطلاعات جدید را هر روز (تا سال 2014، آخرین بار که این مشخصات را گزارش کرد)، خراب می کند. چالش اصلی داده های بزرگ این است که چگونه آن را درک کنید.

حجم منحصر به فرد تنها مشکل نیست: داده های بزرگ نیز تمایل دارند متنوع، بدون ساختار و تغییر سریع باشند. داده های صوتی و تصویری، پست های رسانه های اجتماعی، داده های 3D یا داده های جغرافیایی را در نظر بگیرید. این نوع داده ها به راحتی دسته بندی و سازماندهی نمی شوند.

برای مقابله با این چالش، طیف وسیعی از روش های اتوماتیک برای استخراج اطلاعات مفید، از جمله طبقه بندی شده است .

طبقه بندی چگونه کار می کند

در خطر انتقال بیش از حد به تکنولوژی صحبت، بیایید بحث کنیم که چگونه طبقه بندی کار می کند. هدف این است که مجموعه ای از قوانین طبقه بندی را ایجاد کنیم که به یک سؤال پاسخ دهند، تصمیم بگیرند یا رفتار را پیش بینی کنند. برای شروع، مجموعه ای از داده های آموزشی توسعه یافته است که حاوی مجموعه مشخصی از ویژگی ها و همچنین نتیجه احتمالی است.

کار الگوریتم طبقه بندی این است که کشف کنیم که این مجموعه از ویژگی ها به نتیجه می رسد.

سناریو : شاید یک شرکت کارت اعتباری سعی کند تعیین کند که چه کسی باید یک پیشنهاد کارت اعتباری دریافت کند.

این ممکن است مجموعه داده های آموزشی شما باشد:

داده های آموزشی
نام سن جنسيت درآمد سالانه ارائه کارت اعتباری
جان دو 25 م 39،500 دلار نه
جین دوئه 56 F 125000 دلار بله

ستون «پیش بینی کننده» سن ، جنسیت و درآمد سالانه ارزش «ویژگی پیش بینی کننده» پیشنهاد اعتبار کارت را تعیین می کند . در یک مجموعه آموزشی، ویژگی پیش بینی شده شناخته شده است. سپس الگوریتم طبقه بندی تلاش می کند تا چگونگی ارزیابی ویژگی پیش بینی کننده را تعیین کند: چه روابط بین پیش بینی کننده ها و تصمیم گیری وجود دارد؟ این مجموعه مجموعه ای از قوانین پیش بینی، معمولا یک عبارت IF / THEN، برای مثال:

IF (سن> 18 یا سن <75) و درآمد سالانه> 40،000 THEN ارائه کارت اعتباری = بله

بدیهی است، این یک مثال ساده است و الگوریتم به نمونه برداری از داده های بسیار بیشتر از دو رکورد در اینجا نیاز دارد. علاوه بر این، قوانین پیش بینی به مراتب پیچیده تر است، از جمله قوانین زیر برای ضبط جزئیات ویژگی.

بعد، الگوریتم یک مجموعه پیش بینی داده ها برای تجزیه و تحلیل داده می شود، اما این مجموعه دارای ویژگی پیش بینی (یا تصمیم گیری) نیست:

پیش بینی اطلاعات
نام سن جنسيت درآمد سالانه ارائه کارت اعتباری
جک فراست 42 م 88،000 دلار
مریم ماری 16 F 0 دلار

داده های پیش بینی کننده به تخمین دقت قواعد پیش بینی کمک می کند و قوانین پس از آن تغییر می یابند تا توسعه دهنده پیش بینی های مفید و مفید را در نظر بگیرد.

روز به روز نمونه هایی از طبقه بندی

طبقه بندی و سایر تکنیک های داده کاوی، در پشت بسیاری از تجربه روزمره ما به عنوان مصرف کنندگان است.

پیش بینی های آب و هوایی ممکن است از طبقه بندی استفاده کنید تا گزارش شود که آیا روز بارانی، آفتابی یا ابری خواهد بود. حرفه پزشکی می تواند شرایط سلامتی را برای پیش بینی نتایج پزشکی بررسی کند. یک نوع روش طبقه بندی، Naive Bayesian، از احتمال شرطی برای طبقه بندی ایمیل های اسپم استفاده می کند. از تشخیص تقلب به پیشنهادات محصول، طبقه بندی در پشت صحنه هر روز تجزیه و تحلیل داده ها و تولید پیش بینی.