رهیافت بهینه‌سازی ازدحام ذرات برای خوشه‌بندی متن‌های کوتاه

حاشیه: من باید سریع تموم کنم- خدایا کمکم کن

متن‌های کوتاه مانند نظرات روی محصولات تجاری، اخبار، فک‌ها و چکیده مقالات علمی منابع مهمی روی وب هستند که ناشی از نیازمندی‌های ثابت افراد برای استفاده از آنها برای زندگی واقعی‌شان است. در زمینه خوشه‌إندی متن‌های کوتاه کار تحلیل با اهمیت و الگوریتم بهینه‌سازی ذرات پیوسته که نام کلودآی پی.اس.اُ شناخته شده قبلا نشان داده است که برای حل این مشکلات به خوبی کار می‌کند. کلودی پی.اس.اُ نتایج با کییت بالایی روی هر پیکر متنی کوچک و ب به دست می‌آورد، اما با بزرگتر شدن پیکره کارایی آن زوال می‌یابد. یک ارزیابی کاراتر از تابع بهینه‌ئازی شده بعضی از اصلاحات در عمل جهش انجام شده است. نتایج آزمون روی پیکره متنی حاوی چکیده علمی، اخبار، و اسناد قانوی کوتاه به دست آمده روی وب انجام شد که نشان داد کلویدپ.اس.ا، روش خوشه‌بندی کارا برای پیکره متنی کوتاه و متوسط است.

An efficient Particle Swarm Optimization approach to cluster short texts

مقدمه:

در سال‌های اخیر خوش‌بندی متن یک فرایند اساسی در بسیاری از کارها به عنوان ارتقای نتایج برگشت داده شده توسط موتورهای جستجو، متن‌کاوی، سازماندهی غیرنظارتی متن و بازیابی اطلاعات به کار رفته است. در بسیاری از  این محدوده‌ها خوشه‌بدی درگیر اسناد و محتوای در دسترس در وب بوده است. علاقه استفاده از تکنیک‌های خوشه‌بندی در این موارد، می‌توان در رویدادهای گذشته چون رقابت  چالش اسپوک دید اما در بیشتر رویدادهای اخیر مرتبط با فعالیت‌های جستجوی وب بوده است.

در این زمنیه بیشتر اطلاعات مفید پردازش شده از مخازن وب اسناد، متن‌ها کوتاه با ده‌ها و یا صدها کلمه، مانند چکیده مقالات علمی، اخبار، اسناد کوتاه فنی و قانونی هستند. برای مثال، در بیشتر کتابخانه‌های دیجیتالی و بر مخزن‌های خطوط کاربران دسترسی رایگان به چیده مقالات علمی آسان است اما تمام متن را ندارند. سازماندهی مقدار بزرگی از متن‌های کوتاه چالش مهمی است که در چند کار مشاهده روی چکیده‌های مقالات علمی مشاهده شده است.

چندین تکنیک برای حل مشکلات خوشه‌بندی مبتنی بر پاردایم هوش جمعی به دلیل افزایش کارایی ِآنها انجام شده است. در این مواردی که تکنیک خوشه‌بندی برای پیکرده‌های متنی حاوی اسناد بسیار کوتاه به کار برده می‌شود.مشکلات سر این راه، فرکانس کم عبارات اسناد است. در این نوع محدوده‌ها افزایش یک الگوریتم هوش جمعی جالب به نام الگوریتم بهینه‌سازی ازدحام ذرات به طور موفق پیاده‌‌سازی شده است.

در این مقاله ما یک الگوریتم پی.اس.اُ گسسته به نام کلودی‌پی.اس.اُ را توسعه می‌دهد. ما یک تحلل جزء بندی ارائه داده و روی نتایج به دست آمده از پیکره‌های متنی کوتاه متفاوت بحث می‌کنید. این مطالعه به روشنی نشان داده است که کارایی این الگوریتم‌ها به عنوان تعداد اسناد خوشه‌بندی شده افزایش می‌یابد. این به طور عمده ناشی از ارائه ذرات خاص به کار برده شده برای توصیف خوشه‌بندی به دست آمده است. برای حل این مشکل، ما یک ورژن اصلاح شده‌ای از کلودی‌پی.اس.اف را نشان می‌دهیم. این اصلاحات شامل نمایش جدیدی از ذرات برای کاهش بعد، ارزیابی کاراتر تابع بهینه‌سازی شده

کارایی کلوید پی.اس.ا، با افزایش تعداد اسناد خراب می‌شود.

این اصلاحات شامل:

نمایش جدید ذرات برای کاهش بعد، و ارزیابی کاراتر تابع بهینه‌سازی شده است، برای مثال ضریب نیمرخ (به عنوان افترافکت اصلاح قبلی) و تعدادی تغییرات روی عمل جهش

دیدگاه‌تان را بنویسید: