خوشه‌بندی سند

با جستجویی که با عبارت text clustering در ژورنال سیستم‌های خبره و کاربردها انجام دادم به نتایجی رسیدم که در زیر آوردم:

البته قبل از اون باید بگم که این مقالات از اون دسته مقالات هستند که نگفتند چطوری می‌شه با استفاده از خوشه‌بندی متن، متن‌ها را خوشه‌بندی و بازیابی کرد، بلکه راهکارهایی برای بهبود خوشه‌بندی متن ارائه دادند.

انتخاب ویژگی‌های متن با یک طرح وزن تنومند و کاهش پویا ابعاد برای خوشه‌بندی اسناد

Text feature selection with a robust weight scheme and dynamic dimension reduction to text document clustering

تشریح

ویژگی‌های متن: خوشه‌بندی اسناد درگیر استفاده از توصیف‌گرها و استخراج توصیف‌گرها است. توصیف‌گرها کلماتی هستند که محتوای درون خوشه را توصیف می‌کنند. اینجا ویژگی‌ها همان توصیف‌گرها هستند

البته شاید هم متن زیر باشند

feature is an individual measurable property or characteristic of a phenomenon being observed

البته اینجا انتخاب ویژگی‌ها گفته که یعنی:

 process of selecting a subset of relevant features (variables, predictors) for use in model construction

وزن: وزن با استفاده از محاسبه فرکانس عبارت به دست می‌آید یعنی tf-idf

بعد از پیش‌پردازش داده متن، می توانیم سراغ تولید ویژگی‌ها برویم. برای خوشه بندی سند، یکی رایج‌ترین روش‌ها برای تولید ویژگی‌ها برای یک سند محاسبه فرکان عبارت در همه توکن‌ها است. And sometimes it is also useful to weight the term frequencies by the inverse document frequencies.

کاهش ابعاد:

dimensionality reduction or dimension reduction is the process of reducing the number of random variables under consideration, via obtaining a set of principal variables. It can be divided into feature selection and feature extraction.

خوب حالا میرم سراغ چکیده ببینم چی گفته:

این مقاله برای یادگیری پایه‌های انتخاب ویژگی‌ها و اینکه در کل خوشه‌بندی متن چیه و به چه دردی می‌خوره مفید است.

مقاله دوم: یک رهیافت معنایی برای خوشه‌بندی متن با استفاده از وردنت و زنجیره لغوی

A semantic approach for text clustering using WordNet and lexical chains

چکیده: این مقاله همان طور که از اسمش پیداست ، خواسته با استفاده از معنای بین کلمات خوشه‌بندی‌هی دقیق‌تری ارائه بدهد.

خوب این‌ها مقاله‌های خوبی هستندُ که پایه را قوی می‌کنند و برای نقد یک مقاله هم جواب می‌دهند، اما مقالاتی که من باید پیدا کنم، باید مقالاتی باشند که تو اون از خوشه‌بندی متن برای یافتن سوالات مشابه، اخبار مشابه، متن‌های کوتاه، توییت‌ها مشابه، و غیره به کار رفتند.

خوب برای یک بررسی جامع‌تر من در پست‌های جداگانه این دو نوع مقالات را دسته‌بندی می‌کنم

دیدگاه‌تان را بنویسید: