• ماتريس مجاورت

ماتريس مجاورت[1]، ماتريس فاصله[2] يا تشابه[3] و يا ماتريس همانندي[4] يا ماتريسي است که خوشه­بندي بر پايه آن استوار است.

در فرآيند خوشه­بندي پس از جمع­ آوري داده­ها و استانداردکردن آن­ها بايد فاصله (عدم تشابه[5]) يا تشابه بين اشيا محاسبه شود. بسته به نوع مقياس اندازه­گيري روش­هاي مختلفي براي محاسبه فاصله و تشابه وجود دارد که به برخي از آن­ها اشاره مي­گردد.

گاهي به جاي فاصله (عدم تشابه) بين دو شي، ضريب تشابه آن دو محاسبه مي­شود. هر چه مقدار اين ضريب بيشتر باشد نشان مي­دهد که آن دو شي شباهت بيشتري با هم داشته و همگون­ترند. مقدار ضريب تشابه همواره بين صفر و يک است که يک نشان دهنده حداکثر تشابه و صفر نشان دهنده عدم هرگونه شباهت بين آن­ها است.

به ماتريسهاي n×n که مقادير آن ميزان فاصله (عدم تشابه) باشد ماتريس فاصله و به ماتريسي که مقادير آن ضريب تشابه بين اشيا باشد ماتريس تشابه گفته مي­شود (مومنی, 1390).

در ادامه به چند نمونه از معيارهاي محاسبه شباهت و ضريب تشابه شاخص­ها اشاره مي­شود.

الف) معيارهاي فاصله/ ضريب تشابه براي مقياس­هاي کمي

جدول 2- 2 برخي از معيارهاي فاصله براي شاخص­هاي کمي. منبع: (مومني, 1390)

رديف نام فرمول دامنه تشابه/ عدم تشابه
1 فاصله اقليدسي   [0 – ¥] عدم تشابه
2 فاصله متوسط   [0 – ¥] عدم تشابه
3 فاصله منهتان   [0 – ¥] عدم تشابه
4 فاصله حداکثري [0 – ¥] عدم تشابه
5 فاصله مينکوفسکي   [0 – ¥] عدم تشابه
xj و yj دو نقطه در فضايي با t بعد (شاخص) و r توان بالاي فاصله مينکوفسکي مي­باشد

 

ب) معيارهاي فاصله/ ضريب تشابه براي مقياس­هاي کيفي

از معروف­ترين مقياسهاي ترتيبي ضريب همبستگي رتبه­اي اسپيرمن[6] است که به شرح زير محاسبه مي­گردد.

که در آن:

ضريب همبستگي رتبه­اي اسپيرمن و همواره بين 1± مي­باشد (مقدار 1+ بيانگر حداکثر همبستگي بين دو شي است).

Dj تفاضل رتبه دو شي ار نظر شاخص j (مومنی, 1390).

ج)معيارهاي فاصله/ ضريب تشابه براي مقياس­هاي ترکيبي

مقياس­هاي ترکيبي مقياس­هايي هستند که در آن­ها هم زمان از مقياس­هاي مختلف کمي و کيفي استفاده شده است. براي اندازه­گيري تشابه بين دو شي در اين موارد ضريب تشابه همگاني گاور[7] (Gower, 1971) مورد استفاده قرارمي­گيرد.

که در آن:

t تعداد شاخص­ها

تشابه بين دو شي از نظر شاخص k

عاملي صفر و يک که نشان مي­دهد آيا جز k عاملي معتبر براي محاسبه است يا نه (اگر دو شي از نظر شاخص k داده داشته باشند،  و اگر حداقل يکي از آن­ها داده از دست رفته داشته باشد، مقدار صفر مي­گيرد و )

  • ضريب نيمرخ

يکي از ارکان مهم در هر مساله خوشه­بندي آن است که تعداد خوشه­ها را مشخص کنيم. روش­هاي مختلفي براي تعيين تعداد بهينه خوشه­ها ارائه شده است (مومنی, 1390). ضريب نيمرخ يکي از اين روش­هاست.

نمودار نيمرخ[8] که بر پايه ماتريس عدم تشابه بنانهاده شده است، ابزاري براي کيفيت خوشه­بندي است. شاخصي به نام شاخص نيمرخ[9] به وسيله روسيوف (1987) ارائه شده است که در ادامه به آن اشاره مي­گردد.

اگر شي i در خوشه A قرارگرفته باشد، شاخص نيمرخ شي i که با S(i) نمايش داده مي­شود، به شرح زير محاسبه مي­شود:

که در آن:

a(i) متوسط فاصله شي i با همه اشياي خوشه A

d(i,c) فاصله شي i با هر خوشه ديگري مثل C است که C≠A و C به صورت ميانگين فاصله شي i با همه اشياي خوشه C تعريف مي­شود.

و همواره داريم:

هر چه S(i) به 1+ نزديک­تر باشد نشان مي­دهد که شي i به خوشه خودش نزديک­تر است تا به خوشه همسايه­اش و بيان­گر خوب بودن طبقه­بندي است. زماني­که S(i) نزديک به 1- باشد فاصله شي i با خوشه خودي زياد و با خوشه همسايه کم است و گوياي نامناسب بودن طبقه­بندي است. زماني که S(i) نزديک به صفر باشد روشن نيست اين شي بايد در خوشه خودش قرار گيرد يا در خوشه همسايه (مومنی, 1390).

[1] proximity matrix

[2] distance

[3] similarity

[4] resemblance matrix

[5] dissimilarity

[6] Spearman’s rank correlation

[7] Gower general coefficient

[8] Silhoette plot

[9] Silhouette index