کلاستر چیست؟

داده کاوی با الگوریتم k-means

الگوریتم خوشه بندی k- معیار داده کاوی و ابزار یادگیری ماشین است که برای خوشه بندی مشاهدات به گروه های مشاهدات مربوطه بدون اطلاع قبلی از آن روابط استفاده می شود. با نمونه برداری، الگوریتم تلاش می کند که در کدام دسته یا خوشه، داده ها متعلق به آن باشند، با تعداد خوشه ها توسط مقدار k تعریف می شود .

الگوریتم k- means یکی از ساده ترین روش های خوشه بندی است و معمولا در تصویربرداری پزشکی، بیومتریک و زمینه های مرتبط استفاده می شود. مزیت k- به معنی خوشه بندی این است که آن را در مورد داده های شما (با استفاده از فرم خود را بدون نظارت) می گوید، به جای اینکه شما نیاز به الگوریتم در مورد داده ها در آغاز (با استفاده از الگوریتم تحت نظارت الگوریتم) را آموزش دهید.

گاهی اوقات به عنوان الگوریتم لوید، به ویژه در حلقه های رایانه شناخته می شود، زیرا الگوریتم استاندارد توسط استوارت لویید در سال 1957 پیشنهاد شده است. اصطلاح k-means در سال 1967 توسط جیمز مک کوئین ساخته شد.

توابع الگوریتم K به چه معناست

الگوریتم k- means یک الگوریتم تکاملی است که نام خود را از روش عملیات به دست می آورد. الگوریتم خوشه خوشه ها را به گروه k ، جایی که k به عنوان یک پارامتر ورودی ارائه شده است. سپس هر مشاهدات را به خوشه ها بر اساس نزدیک بودن مشاهده به میانگین خوشه اختصاص می دهد. سپس میانگین معادله خوشه ای دوباره محاسبه می شود و روند دوباره شروع می شود. در اینجا این است که چگونه الگوریتم کار می کند:

  1. الگوریتم به طور دلخواه K به عنوان مراکز اولیه خوشه (یعنی ابزار) انتخاب می کند.
  2. هر نقطه در مجموعه داده به خوشه بسته بستگی دارد، براساس فاصله اقلیدس بین هر نقطه و هر مرکز خوشه ای.
  3. هر مرکز خوشه به عنوان میانگین امتیاز در آن خوشه تجدید می شود.
  4. مراحل 2 و 3 تا زمانی که خوشه ها همگرا شوند، تکرار کنید. همگرایی ممکن است بسته به پیاده سازی متفاوت باشد، اما به طور معمول این بدان معنی است که هیچ مشاهدات خوشه ای را تغییر نمی دهند زمانی که مراحل 2 و 3 تکرار می شوند یا تغییرات در تعریف خوشه ها تفاوت معناداری ندارد.

انتخاب تعداد خوشه ها

یکی از معایب اصلی k- خوشه بندی این واقعیت است که شما باید تعداد خوشه ها را به عنوان ورودی به الگوریتم مشخص کنید. همانطور که طراحی شده، الگوریتم قادر به تعیین تعداد مناسب خوشه ها نیست و بستگی به کاربر دارد تا پیش از آن شناسایی کند.

به عنوان مثال، اگر شما گروهی از افرادی را دارید که براساس هویت جنسی دوتایی به عنوان مرد یا زن به صورت خوشه بندی شده باشند، با الگوریتم K- means با استفاده از ورودی k = 3 ، مردم را به سه دسته تقسیم می کنند، زمانی که فقط دو یا یک ورودی k = 2، یک تناسب طبیعی تر را فراهم می کند.

به طور مشابه، اگر گروهی از افراد به راحتی با توجه به وضعیت خانه خوشه بندی شده و شما الگوریتم K را با ورودی k = 20 نامیدید، نتایج ممکن است برای تأثیر مؤثر باشد.

به همین دلیل، اغلب ایده خوبی است که با ارزش های مختلف k برای آزمایش ارزش های مناسب برای داده های شما، آزمایش شود. شما همچنین ممکن است مایل به استفاده از دیگر الگوریتم های استخراج داده کاوش در تلاش خود را برای دانش آموخته آمیز یاد بگیرند.