خوشه بندی یکی از تکنیک های داده کاوی است که در گروه بندی داده با توجه به شباهت یا درجه نزدیکی آنها مورد استفاده قرار می گیرد. خوشه بندی روشی غیر مستقیم است بدین معنی که بدون هیچ اطاعات پیشین می توان از آن به منظور کشف الگوهای پنهانی و توسعه دادن روش های مستقیم استفاده کرد. داده ها یا مشاهدات را می توان از این طریق به دسته های همگن و متمایز از هم تقسیم کرد. در این روش هیچ دسته ای از قبل وجود ندارد و متغیرها را به صورت مستقل و وابسته تقسیم بندی نمی کنند. خوشه بندی با جستجوی شباهت ها ارتباط دارد.
در بعضی موارد از خوشه بندی برای داده هایی که با سایر داده ها تفاوت دارند استفاده می کنیم. برای داده های گوناگون می توان از روش خوشه بندی استفاده کرد. با انتخاب مناسب و صحیح اندازه فاصله های گوناگون این روش را می توان برای بیشتر انواع داده ها استفاده کرد. در زمینه های مهندسی، علوم کامپیوتر، تحلیل پایگاه داده های فضایی، علوم پزشکی، جامعه شناسی، روانشناسی، علوم زمین، اقتصاد، علوم اجتماعی، سیستم های رباتیک و به طور کلی در زندگی می توان از خوشه بندی استفاده کرد.
خوشه بندی خوب است که شباهت بالای نقاط داخلی هر کلاس و شباهت کمتری بین نقاط کلاسهای مختلف داشته باشد. به طور کلی کیفیت خوشه بندی به روش اندازه گیری شباهت به کار رفته و اجرای آن روش بستگی دارد.
خوشه بندی به دو دسته تقسیم می شود که عبارتند از:
خوشه بندی سلسله مراتبی
خوشه بندی غیر سلسله مراتبی
Average linkage
Complete linkage
Single linkage
Centroid
در تعیین تعداد خوشه ها-k- می توان از روش سلسله مراتبی استفاده بهینه کرد. این روش به تحلیل گر اجازه می دهد که از بین حالات مختلف یک عدد را برای تعداد خوشه ها انتخاب کرد. معمولا در انتخاب مقدار k نقش شخص تحلیل گر از کامپیوتر مهم تر است. به همین دلیل در شرایط مختلف بسته به کاربردهای متفاوت این روش شاید به تعداد بیشتر یا کمتری از خوشه ها نیاز پیدا شود.


ثبت پروژه