مدل فضای بردار

در طی خوشه‌بندی اسناد همش با عبارت مدل فضای بردار مواجه می‌شویم:

در این ۹ دقیقه می‌خوام این را توضیح بدم، پس کمربندها را محکم ببندید!

مدل فضای بردار یا مدل فضای عبارت یک مدل جبری برای ارائه اسناد متنی به عنوان بردارهای شناساگر است مثالی از آن  عبارت‌های نمایه شده است. مدل فضای بردار در فیلترسازی اطلاعات، بازیابی اطلاعات، رتبه‌بندی و نمایه‌گذاری اطلاعات به کار می‌رود. این مدل ابتدا در سیستم‌های بازیابی اطلاعات اس.ام.ای.آر.تی استفاده شد.


تعریف:

اسناد و کوئری‌ها به عنوان بردارها ارائه می‌شوند،

d_j = ( w_{1,j} ,w_{2,j} , \dotsc ,w_{t,j} )

q = ( w_{1,q} ,w_{2,q} , \dotsc ,w_{n,q} )

هر بعد هماهنگ با یک عبارت مجزا است. اگر یک عبارت  در سند رخ دهد ارزشش در بردار غیر صفر است. چندین روش مختلف محاسبه این مقادیر  ((وزن‌های) عبارت) موجود است. یکی از بهترین طرح‌های شناخته شده برای این کار وزن‌دهی tf-idf است.

حاشیه: اگر لازم شد اون را توضیح می‌دم، اما اینجا در ویکی‌پدیا در این باره توضیح داده.

تعریف عبارت وابسته به برنامه کاربردی است. معمولا عبارت‌ها کلمات تنها، کلیدواژه‌ها یا عبارت‌های طولانی‌تر هستند. اگر کلمات برای عبارت‌ها انتخاب شده باشند، بعد بردار تعداد کلمات در واژگان (تعداد کلمات مجزا در یک آرشیو) است.

عملیات بردار می‌تواند برای مقایسه بردار با اسناد استفاده شود.


حاشیه: ۹ دقیقه که راحت تمام شد– چقدر زمان مهمه

کاربردها:

مگه من این همه ننوشتم

پس چطور پاک شد،

فقط اینجا دوباره به مدل فضای بردار لینک می‌دم

چیزهایی مثل نرم، بعد، فضای بردار، ضرب داخلی، شباهت کسینوس، و از این دست موارد را باید یاد گرفت.

البته من این‌ها را نوشتم

حاشیه: این وبلاگ‌های فارسی دیگه دارند شورش در میارند ا، اون از بلاگفا اینم از بلاگ‌اسکای

دیدگاه‌تان را بنویسید: