ارائه سند

در بیشتر الگوریتم‌های خوشه‌بندی، دیتاست به عنوان مجموعه‌ای از بردارها مثال:

X {x۱,x۲, …}

لحاظ می‌شند که بردار ایکس آی همگام با یک شی مفرد است که بردار ویژگی صدا زده می‌شود، یعنی ایکس آی بردار ویژگی است. یا همان شی مفرد بردار ویژگی است.

بردار ویژگی باید ویژگی‌های مناسب برای ارائه شی داشته باشد. اشیای اسناد متنی می‌توانند به وسیله مدل فضای بردار نمایش داده شوند. در این مدل محتوای اسناد به عنوان ضرب فضای چند بعدی فرمول‌بندی می‌شوند و به وسیله یک بردار دی. در این بردار به جای اون ایکس کوچیک‌ها دبلیو می‌نویسند، دبلیو یعنی وزن، یعنی هر دبلیو مساوی است با یک عبارت، که مقدار آن برابر وزن آن عبارت است. حالا وزن عبارت چیه وزن عبارت یعنی فرکانس عبارت، یعنی عبارت چند بار در سند تکرار شده، که البته وابسته به بزرگی سند محاسبه می‌شود.

برای محاسبه وزن از تعریف زیر استفاده می‌کنیم:

فراوانی وزنی تی‌اف-آی‌دی‌اف (به انگلیسیtf–idf weight) مخفف فراوانی – عکس فراوانی سند است. در این شیوه به لغات یک وزن بر اساس فراوانی آن در سند داده می‌شود. در واقع این سیستم وزن دهی نشان می‌دهد چقدر یک کلمه برای یک سند (مدرک) مهم است. این مسئله کاربردهای بسیاری در بازیابی اطلاعات دارد. وزن کلمه با افزایش تعداد تکرار آن در متن افزایش می‌یابد، اما توسط تعداد کلمات در متن کنترل می‌شود، چرا که می‌دانیم در صورت زیاد بودن طول متن، بعضی از کلمات به طول طبیعی بیشتر از دیگران تکرار خواهند شد، اگرچه چندان اهمیتی در معنی نداشته باشند.

فعلا فکر کنم در همین حد کافیه، جزئیات را بعد محول می‌گردانیمم.

دیدگاه‌تان را بنویسید: