یوزر کلاسترینگ ـ خوشه بندی کاربر

یک دسته‌ای دیگری از خوشه‌بندی‌ها هست که می‌توانه جالب باشه، یعنی خوشه‌بندی کاربر

Inferring  User Interests in Streams of Short Texts for User Clustering

این یک مقاله ژورنالی آی.اس.آی در سال ۲۰۱۷ است.

پس باید خوب باشهه

در خط اول نوشته، یوزر کلاسترینگ از زوایای مختلفی مطالعه شده است. برای شناسایی علاقه‌های به اشتراک گذاشته شده، روش‌های مبتنی بر رفتار برای ملاحظه مرور مشابه یا الگوهای جستجوی کاربران، در حالیکه روش‌های مبتنی بر محتوا اطلاعات را از محتواهای خوشه‌های ملاقات شده توسط کاربران استفاده می‌کنند.

خوشه‌بندی کاربر مبتنی بر محتوا = content-based user clustering

تمرکزش روی static sets of relatively long documents یعنی مجموعه‌های استاتیک اسناد بلند مرتبط است.

بعدش گفته که خوشه‌بندی کاربران در زمینه شبکه‌های اچتماعی که متن‌های کوتاه تولید می‌کنند نسبت به اسناد بلند پیچیده‌تر است. چرا ؟

چون:

it is difficult to capture the users’ dynamic topic distributions in sparse data settings

این مقاله رفته چی کار کرده

رفته از الگوریتم Gibbs sampling algorithm

کاری که کرده در زیر اومده:

we propose a dynamic user clustering topic model (UCT). UCT adaptively tracks changes of each user’s time-varying topic distributions based both on the short texts the user posts during a given time period and on previously estimated distributions. To infer changes, we propose a Gibbs sampling algorithm where a set of word pairs from each user is constructed for sampling.

خوب بقیه چکیده را بعدا می‌خونم

حالا بریم سراغ مقدمه:

مشکلی که در این مطالعه بررسی شده

user clustering in the context of streams of short texts

 هدف این مقاله: استنتاج توزیع موضوعی کاربرا بز طریق زمان و خوشه‌بندی کابربر مببتنی بر توزیع موضوعی آنها در روشی که کاربران در خوشه یکسان به علاقه‌مندی‌های یکسانی را به اشتراک بگذارند درحالی که کاربران در خوشه‌های متفاوت علاقه‌ها متفاوتی داشته باشند. به علاوه، ما در ساخت قابل توضیح و درک بودن نتایج خوشه‌بندی کمک می‌کنیم.

کارهای قبلی که در زمینه خوشه‌بندی کاربران انجام شده:

کاربران را بر اساس الگوهای مشابه مانند کلیک کردن روی اسناد خوشه بندی کردند

نقد: چنین روش‌های برای کار با مجموعه‌های استاتیک، و اسناد بلند سر و کار دارند و فرض می‌کنند که علاقه‌مندی کاربر در طول زمان تغییر نمی‌کند

اما در اینجا

we focus on clustering users at a certain point in time, in the context of streams of short documents

بر این اسا ما یک مدل دیریکله چند جمله‌ای پویا مخلوط شده با مدل موضوعی خوشه‌بندی کاربر برای پیگیری مشکل خوشه‌بندی پویای کاربر در جریان متن‌های کوتاه نشان می‌دهیم. توزیع‌های موضوعی زمان-متغیر مدل موضوعی خوشه‌بندی از عبارت کوتاه یا عببارت بلند وابسته به مدل روی متن‌های کوتاه‌ دنباله‌دار پست شده توسط کاربر در نقاط مختلف در زمان استفاده می‌کند. مدل موضوعی خوشه‌بندی کاربر وابسته به عبارت کوتاه یک توزیع موضوعی کاربر در زمان تی، روی توزیع موضوعی فعلی، مبتنی بر توزیع موضوعی در زمان قبلی تی منهای یک در محتوای جدید رسیده اسناد کوتاه در زمان تی مدل می‌کند. در مقابل مدل توزیعی کاربر وابسته بلند مدت یک توزیع موضوعی فعلی کاربر مبتنی بر توزیع موضوعی در زمان (T − ۱), (T − ۲),…,(T − L) به علاوه محتوای جدید رسیده شده انساند کوتاه است. از این رو ال طول تاریی است که ما می‌خواهیم برای استنتاج توزیع موضوعی فعلی کاریر ملاحظه کنیم. به طور آشکار، مدل توزیع موضوعی کاریر مورد خاصی از وابستگی بلند مدت مدل توزیع موضوعی کاربر است اگر در زمان مدل توزیعی وابستگی بلند مدت کاربر L = 1 قرار دهیم.

حاشیه: یک سری چرت و پرت نوشتم

مدل‌ها موضوعی سنتی مانند probabilistic latent semantic indexing  و یک سری از مدل‌های دیگر به طور گسترده روی کشف موضوعات اسناد و کاربران کار کرده‌اند

نقد: این مدل‌ها اطلاعات زمانی را نادیده گرفتند و تنها می‌توانند روی آرشیو ایستا به کار برده شوند\

اما مدل‌های موضوعی پویا:

نقد: تنها در زمینه جریان اسناد بلند مدت کار کردند

رویه‌ای که در این مقاله به کار برده شده:

۱: از یک سری مطالعات قبلی در زمینه کم پشت بودن اطلاعات الهام گرفته

۲: جفت‌های کلمات را در هر توییت استخراج کرد و یک مجموعه جفت کلمه برای هر کاربر برای به دست آوردن وضوح الگوهای هم کاری کلمات به دست آورد.

بدین شکل توزیع خوشه‌بندی کاربر هر عالقه کاربر با موضوعات پنهان استنباط می‌کند در حالی که موضوعات از مجموعه جفت‌ها کلمات و کاربران به دست می‌آید.
۳: برای پیگیری علاقه‌مندی‌های کاربر UCT علاقه فعلی کاربر را به وسیله یکپارچه کردن علاقه‌ها در دوره زمانی قبلی

خوب دیگه فکر می‌کنم الان کافیه

فهمیدم خوشه بندی کاربر یعنی چی، یعنی کشف علاقه کاربر در یک زمان خاص

اگر کشف علاقه کاربر در هر زمانی باشه اونوقت میشه استاتیک

اگر کشف علاقه کاربر در زمان حال باشه میشه دینامیک


نمی‌دانم فکر نمی‌کنم خوشه‌بندی کاربر به کارم بیاید

مجبورم برم روی موضوع دیگه

دیدگاه‌تان را بنویسید: