تکنیک‌های خوشه‌بندی سند

خوشه‌بندی سند در ادبیات علم کامپیوتر به صورت گسترده مطالعه شده است. تلاش‌های پژوهشی گذشته در گذشته توسعه کارای رهیافت‌های خوشه‌بندی سند بررسی کرده‌اند. یک مطالعه تجربی که به وسیله کاریپس انجام شد درگیر مقایسه میان خوشه‌بندی سلسله مراتبی و افرازی بود که نشان داد که الگوریتم افرازی بهتر از الگوریتم‌های خوشه‌بندی است چون آنها پیچیدگی زمانی خطی کمتری از پیچیدگی زمانی درجه دو دارند. آنها همچنین سه تابع میار برای خوشه بندی سند نشان دادند. یک رهیافت سلسله مراتبی (تکنیک لینک کامل) برای خوشه‌ندی روی مجموعه مقالات جدید پیاده‌سازی شده‌اند. ت۰.عدادی از پژوهشگران همچنین تاثیر انتخاب یک سنجه شباهت روی خوشه‌بندی سند بررسی کردند. چندین بررسی مطالعه پایه‌ای روی رهیافت‌های خوشه‌بندی سند انجام شد که تعدادی از مسائل باز را مطرح کردند، این مسائل در زیر آمده‌اند (فعلا ترجمه‌شان نکردم) .

 such as achievement of better quality-complexity tradeoffs, textitincrementality as the web pages like news articles change very frequently, dealing with overlapping clusters, labelling issue i.e. description of clusters’ content to the users)

از آنجا که اسناد متنی ساختار بعد بالا دارند، پیش‌پردازش و کاهش بعد دیگر مسائل ضروری برای خوشه بندی اسناد با بعد بالا هستند که مطالعاتی برای حل این مشکل مانند فرکانس سند، هادووپ، ال.اس.آی و پی.ال.اس.ال، فرکانس عبارت و قدرت عبارت مطرح شدند..

کا مین رایج الگوریتم خوشه‌بندیترین است و متغیرهای آن به طور گسترده برای خوشه‌بندی اسناد جهت بهبود کارایی ودقت پیاده‌سازی شده‌اند. بعصی از آنها شامل کا مین اقلیدسی، کا مین جنبی، و کا مین دو گانه هستند. تعدادی از تکنیک‌ها به طور گستدرده در نوشته‌های خوسه‌بندی اسناد استفاده شده‌اند.، متا-اکتشافی، تکنیک‌های بهینه‌سازی و خوشه‌بندی مبتنی بر مدل از مولفه‌های مهم تکنیک‌های خوشه‌بندی ترکیبی استفاده شده در ادبیات برای خوشه‌بندی اسناد است. مثالی شامل الگوریتم کا مین هارمونی که ترکیبی از کا مین و روش بهینه‌سازی جستجوی هارمونی است. چندین تکنیک برای فراهم آوردن روابط معنایی میان این اسناد توسعه داده شد. یکی از رایج‌ترین این ابزار وردنت است که برای کاراتر کردن روابط معنایی مهم میان کلمات مانند روابط معنایی توسعه داده شد. دیگر مطالعات نیز روی شباهت معنایی تمرکز داشتند.

توانایی الگوریتم‌های تکاملی در ادبیات خوشه‌بندی ابعاد بالا و مجموعه اسناد کم پشت به کار گرفته شد. تکنیک‌های فازی به طور مفید برای خوشه‌بندی اسناد جهت کشف خوشه‌های داده با هم‌پوشانی به کار گرفته شد، مزیت مطق فازی در اینجا به دست آوردن ساختار هم‌پوشانی اسناد متنی بود. الگوریتم‌های فازی اجازه می‌دهند هر سند و کلمه به بیش از یک خوشه تعلق یابد و می‌تواند خوشه‌های کاراتری حتی در محط نویزدار وب فراهم بیاورد. این تکنیک‌ها کاملا برای دیتاست‌هایی که هم‌پوشانی آنها بالا است کارا است، و به طور قوی شرایط طبیعی در وب را ارائه می‌دهند. الگوریتم سی مین فازی به طور کارا برای مشکلات خوشه‌بندی متن به کار برده شده است. دیگر تکنیک‌ها اس.اُ.ام، الگوریتم ژنتیک، و تکاملا متنوع است.

الگوریتم‌های مبتنی بر ازدحام همچنین برای خوشه‌بندی اسناد متنی به کار گرفته شدند. الگوریتم‌های مبتنی بر دسته، بهینه‌سازی ازدحام ذرات است که به وسیله ابرهارت و کندی در ۱۹۹۵ معرفی شد، الگوریتم بهینه‌سازی کلونی مورچه است که توسط مارکو دوریگو در ۱۹۹۲ معرفی شد، و الگوریتم بهینه‌سازی کلونی زنبور مصنوعی است که در ۲۰۰۵ توسط کارابوگا معرفی گشت. این تکنیک‌های هوش ازدحامی الهام گرفته از طبیعت می‌توانند با انواع الگوریتم‌های دیگر برای به دست آوردن نتایج با معنی بهینه و دقیق‌تر به کار گرفته شوند. این زمینه در حال ظهور و نوآور تعدادی از الگوریتم‌های ترکیبی یا متوع برای کارایی بهبود بیشتری به کار گرفت.

(e.g. different variants of PSO, ACO exist)

ای.سی.اُ برای خوشه‌بندی متن به کار گرفته شد. الگوریتم مبتنی بر ازدحامی که به طور عمده برای مسائل خوشه‌بندی اسناد به کار گرفته می‌شود بهینه‌سازی ازدحام ذرات است. که در زیر ادامه‌اش را می‌بینید:

The first ever application to cluster documents was introduced by Potok et al. as a hybrid of PSO and K-Means method. The hybridization of PSO and K-means algorithm combines the ability of the globalized searching of the PSO technique and the fast convergence of the K-means algorithm and can avoid the drawback of both algorithms. Yanping Tu et al. extended the particle swarm optimizer with variable weighting (PSOVW) technique to a subspace clustering algorithm for the problem of text clustering with two main evaluation measures i.e. Entropy and F-Measure. PSO as a hybrid algorithm
is studied in many researches.

دیدگاه‌تان را بنویسید: