آرگومنت‌ها در الگوریتم k-means در متلب

آرگومنت‌های ورودی

آرگومنت‌های تک مقداری

x—- data

در متلب داده‌ها به صورت ماتریس عددی هستند. سطرهای x  متناظر با مشاهدات، و ستون‌ها متناظر با متغیرها هستند. اگر X  یک بردار عددی است، سپس این الگوریتم به عنوان یک ماتریس ان سطری و یک ستونی عمل می‌کند.

Data Types: single | double


k—تعداد خوشه

Data Types: single | double


آرگومنت‌های جفتی نام-مقدار

جفت‌های خاص اختیاری مجزا شده با کاما یک اسم و یک مقدار دارند. Name,Value که name  آرگومنت اسم و value مقدار متناظر با آن است. name  باید درون (' ') قرار بگیرد. شما می‌توانید چندین جفت آرگومنت‌های نام و مقدار داشته باشید به ترتیبی مانند Name1,Value1,...,NameN,ValueN.

 

Example: 'Distance','cosine','Replicates',10,'Options',statset('UseParallel',1) 


‘display’ —- سطح خروجی جهت نمایش

مقادیر: off , final, ,iter مقدار پیشفرض برای دیسپلی، آف است.

  • 'final' —نتایج تکرار پایانی را نشان می‌دهد.
  • 'iter' —نتیجه هر تکرار را نشان می‌دهد
  • 'off' — هیچ چیزی نشان نمی‌دهد

Example: 'Display','final'

Data Types: char


سنجه فاصله —— Distance

سنجه فاصله در فضای p-بعدی, استفاده شده برای کمینه کردن, خاص شده همچنان که با کاما جدا شده جفت شامل 'Distance' و 'sqeuclidean', 'cityblock', 'cosine', 'correlation', یا 'hamming'. است.

کا-مینز مرکز خوشه‌ها را با استفاده از سنجه‌های مختلف محاسبه می‌کند. جدول زیر خلاصه‌ای از سنجه‌های موجود است. در فرمول‌های زیر، ایکس مشاهده‌ها و سی مراکز خوشه (بردار یک سطر) است.

سنجه فاصلهتوصیففرمول
'sqeuclidean'Squ thared Euclidean distance (default). Each centroid ise mean of the points in that cluster.
'cityblock'Sum of absolute differences, i.e., the L۱ distance. Each centroid is the component-wise median of the points in that cluster.
'cosine'One minus the cosine of the included angle between points (treated as vectors). Each centroid is the mean of the points in that cluster, after normalizing those points to unit Euclidean length.
'correlation'One minus the sample correlation between points (treated as sequences of values). Each centroid is the component-wise mean of the points in that cluster, after centering and normalizing those points to zero mean and unit standard deviation.

where

  • is a row vector of p ones.
'hamming'

این سنجه تنها برای داده‌های باینری مناسب است.

It is the proportion of bits that differ. Each centroid is the component-wise median of points in that cluster.

where I is the indicator function.

Example: 'Distance','cityblock'

Data Types: char


’empty action’ —-عمل حذف اگر خوشه همه اعضایش را از دست بدهد.

مقدارتوصیف
'error'رفتار یک خوشه خالی به عنوان یک خطا

 

'drop'

حذف هر خوشه‌ای که خالی باشد.

 

'singleton' ایجاد خوشه جدید شامل یک نقطه از مرکز

Example: 'EmptyAction','error'

Data Types: char


MaxIter — بیشترین تعداد تکرارها

به طور پیشفرض: ۱۰۰

Example: 'MaxIter',1000

Data Types: double | single


OnlinePhase

این آرگومنت دو مقدار off و on دارد.

اگر OnlinePhase روشن باشد، اگلوریتم کا-مینز فاز به روز رسانی آنلاین به فاز به رسانی اضافه می‌کند. فاز آنلانی می تواند برای مجموعه داده‌های بزرگ زمانبر باشد، اما راه حلی را تضمین می‌کند که مینمم محلی معیار فاصله است. به عبارت دیگر، متلب افرازی از داده را پیدا می‌کند که با انتقال هر نقطه به خوشه‌های متفاوت مجموعه فواصل بیشتر می‌شود.

Example: 'OnlinePhase','on'

Data Types: char


‘options’

گزینه‌هایی برای کنترل تکرار الگوریتم جهت کمینه کردن معیار تناسب

گزینهتوصیف
'Streams'A RandStream object or cell array of such objects. If you do not specify Streams, kmeans uses the default stream or streams. If you specify Streams, use a single object except when:

  • You have an open parallel pool
  • UseParallel is true.
  • UseSubstreams is false.

In that case, use a cell array the same size as the parallel pool. If a parallel pool is not open, then Streams must supply a single random number stream.

'UseParallel'
  • If true, Replicates > 1, and if a parallel pool of workers from the Parallel Computing Toolbox is open, then the software implements k-means on each replicate in parallel.

  • If the Parallel Computing Toolbox™ is not installed, or a parallel pool of workers is not open, computation occurs in serial mode. Default is default, meaning serial computation.

'UseSubstreams'Set to true to compute in parallel in a reproducible fashion. Default is false. To compute reproducibly, set Streams to a type allowing substreams: 'mlfg6331_64' or 'mrg32k3a'.

Example: 'Options',statset('UseParallel',1)

Data Types: struct


replicate

تعداد دفعات تکرار خوشه‌بندی با استفاده از مراکز خوشه جدید

Example: 'Replicates',5

Data Types: double | single


start

روشی برای انتخاب مراکز اولیه خوشه

گزینه‌های در دسترس عبارتند از:

ValueDescription
'cluster'Perform a preliminary clustering phase on a random 10% subsample of X. This preliminary phase is itself initialized using 'sample'.
'plus' (default)Select k seeds by implementing the k-means++ algorithm for cluster center initialization.
'sample'Select k observations from X at random.
'uniform'Select k points uniformly at random from the range of X. Not valid with the Hamming distance.
numeric matrixk-by-p matrix of centroid starting locations. The rows of Start correspond to seeds. The software infers k from the first dimension of Start, so you can pass in [] for k.
numeric arrayk-by-pr array of centroid starting locations. The rows of each page correspond to seeds. The third dimension invokes replication of the clustering routine. Page j contains the set of seeds for replicate j. The software infers the number of replicates (specified by the 'Replicates' name-value pair argument) from the size of the third dimension.

Example: 'Start','sample'

Data Types: char | double | single


آرگومنت‌های خروجی

آرگومنت‌های خروجی عبارتند از:

idx —- شاخص خوشه

c —— مرکز خوشه

sumd —— جمع درون خوشه‌ای فاصله نقاط تا مرکز

d ——-فاصله هر نقطه تا هر مرکز

 

دیدگاه‌تان را بنویسید: