گفتاری در مورد خوشه‌بندی پی.اس.اُ

انتخاب ویژگی ربطی به خوشه بندی متن ندارد

یعنی دو تا چیز جدا هستند و مرتبط

در اصل انتخاب ویژگی یکی از کارهایی است که در طی متن کاوی صورت می‌گیرد. یعنی باید اطلاعات مفید یک سند به دست آورد. به دست آوردن اطلاعات مفید هیچ ربطی به خوشه‌بندی ندارد، و همین طور هیچ ربطی به مسائل بهینه‌سازی ندارد، البته شاید داشته باشد به این منظور که ما باید تا آنجا که می‌توانیم اطلاعات مفید را پیدا و غیر مفید را حذف بکنیم که البته فکر نمی‌کنم با الگوریتم‌هایی چون پی.اس.ا، بشه این کار را انجام داد. بنابراین برای این کار از کارهایی چون فرکانس عبارت، و از این دست موارد استفاده می‌شود.

اما خوشه‌بندی متن یا سند، یعنی گام آخر این کار یعنی پس از آنکه ما همه کارها را انجام دادیم، برای مثال رفتیم کلمات غیر مفید از سند را حذف کردیم و یک سری کارهای دیگر، حالا نوبت به خوشه‌بندی این اسناد می‌رسد. خوشه‌بندی برای این صورت می‌گیرد که کار بازیابی راحت‌تر باشد. یعنی وقتی ما یک سوال را در جعبه جستجو می‌نویسم و انتر را می‌زنیم این سوال از خوشه مرتبط بازیابی بشه، البته مسائلی اینجا مطرحه، برای مثال اینکه این سوال به چه گروهی مرتبط‌تر است که باز طبق الگوریتم‌هایی این کار انجام می‌شه، اما ما کاری باهاش نداریم.

ما فقط می‌خوایم اسناد را پس از پیش‌پرازش خوشه‌بندی کنیم. هدف‌مان از این کار هم که بیان شد.

حالا برای این خوشه‌بندی چند نوع الگوریتم معرفی شده، یکی الگوریتم‌های سلسله مراتبی است، الگوریتم‌های فازی، الگوریتم‌های افرازی مانند کا-مین، الگوریتم‌های مبتنی بر غلظت و جمعیت مانند پی.اس.اُ هستش.

از میان این الگوریتم‌ها تمرکز اصلی ما روی الگوریتم پی.اس.اُ هستش

در رابطه با الگوریتم‌ پی.اس.اُ یک سری بهبودی‌ها صورت گرفته که بیان می‌شود

البته قبل از آن مشکلاتش بیان می‌شود

این الگوریتم در بهینه‌سازی کلی عالی کار می‌کند، اما در بهینه‌سازی محلی شکست می‌خورد.

من دقیق این را مطالعه نکردم، این مطالعه را به بعد واگذار می‌کنم.

چند نوع بهبودی در خصوص الگوریتم پی.اس.اُ صورت گرفته

۱: خودش ویرایش شده

۲: با الگوریتم‌های دیگر ترکیب شده.

این الگوریتم و ویرایش شده و همین‌طور ترکیب شده‌اش را میشه در هر نوع خوشه‌بندی دیگری به کار برد. چرا، چون کار اصلی این الگوریتم خوشه‌بندی است، چه حالا این خوشه‌بندی متن باشد یا آدم باشه

بنابراین محدوده کار ما مشخص شد، ما از این الگوریتم و نسخه‌های بهبود یافته‌اش برای خوشه‌بندی استفاده می‌کنیم.

می‌توانیم از این الگوریتم‌ استفاده کنیم و اسناد مرتبط را خوشه‌بندی کنیم

می‌توانیم از این الگوریتم استفاده کنیم و کامپیوترهای آلوده شده در شبکه باتنت را شناسایی کنیم.

و هزار کار دیگر، تنها دو نکته مهم است: اول اینکه آن کار باید خوشه‌بندی باشه، و همین هم تنها مورد مهم است. یعنی خوشه‌بندی یک سری اشیا، حالا هر چه که باشد. پس ما باید دنبال مقالات خوشه‌بندی بگردیم.

دیدگاه‌تان را بنویسید: