سنجه شباهت برای بررسی شباهت بین اسناد

من در یک مقاله به طور کامل آن را بررسی کردم اینجا دوباره همونا را می‌ذارم، البته این‌ها سنجه‌های شباهت خارجی هستند، برای سنجه‌های شباهت‌ داخلی باید بیشتر مطالعه کرد.

چندین سنجش شباهت برای محاسبه سنجش شباهت میان اسناد وجود دارد که مکررا برای خوشه‌بندی اسناد استفاده می‌شود و در زیر آمده است:

فاصله اقلیدسی: این به طور رایج به عنوان سنجه فاصله فرضی میان سند ایکس آی و ایکس جی استفاده می‌شود. که به شکل زیر محاسبه می‌شود

 

در اینجا ام پی به توان ۲ ام جی: دات پروداکت دو بردار سند است. |.| ایندکس طول اقلیدسی این بردار است. زمانی که اسناد با هم یکی هستند کسینوس برابر ۱ است. اگر اسناد هیچ شباهتی با هم نداشته باشند کسینوسشان برابر ۰ است.

ضریب ژاکارد: مقایسه وزن مجموع عبارت‌های به اشتراک گذاشته شده با مجموع وزن عبارت‌هایی که در هر دو سند هستند اما عبارت‌های به اشتراک گذاشته شده نیستند. برای دو سند آ و بی ضریب ژاکارد با فرمول زیر محاسبه می‌شود:

دیدگاه‌تان را بنویسید: