የክላስተር ዘዴ፡መግለጫ፣መሰረታዊ ፅንሰ-ሀሳቦች፣የመተግበሪያ ባህሪያት

ዝርዝር ሁኔታ:

የክላስተር ዘዴ፡መግለጫ፣መሰረታዊ ፅንሰ-ሀሳቦች፣የመተግበሪያ ባህሪያት
የክላስተር ዘዴ፡መግለጫ፣መሰረታዊ ፅንሰ-ሀሳቦች፣የመተግበሪያ ባህሪያት
Anonim

የክላስተር ዘዴው የነገሮችን ስብስብ ከሌሎች ኢንዱስትሪዎች ይልቅ እርስ በርስ በሚመሳሰሉበት መንገድ የመቧደን ተግባር ነው። የማሽን መማር፣ የስርዓተ-ጥለት ማወቂያ፣ የምስል ማወቂያ፣ መረጃ ሰርስሮ ማውጣት፣ የውሂብ መጭመቂያ እና የኮምፒውተር ግራፊክስን ጨምሮ በብዙ መስኮች ጥቅም ላይ የሚውለው የመረጃ ማዕድን ዋና ተግባር እና አጠቃላይ ስታቲስቲካዊ ትንተና ቴክኒክ ነው።

የማመቻቸት ችግር

የክላስተር ዘዴን በመጠቀም
የክላስተር ዘዴን በመጠቀም

የክላስተር ዘዴው ራሱ አንድ የተወሰነ ስልተ ቀመር አይደለም፣ነገር ግን አጠቃላይ መፍትሄ የሚያስፈልገው ተግባር ነው። ይህ ቡድን ምን ማለት እንደሆነ እና እንዴት በብቃት ማግኘት እንደሚቻል በመረዳት በከፍተኛ ሁኔታ በሚለያዩ የተለያዩ ስልተ ቀመሮች ሊሳካ ይችላል። ለሜታ ርእሰ ጉዳዮች ምስረታ የክላስተር ዘዴን መጠቀም የቡድን አጠቃቀምን ያጠቃልላልበአባላት መካከል ትንሽ ርቀት, ጥቅጥቅ ያሉ የቦታ ክልሎች, ክፍተቶች ወይም የተወሰኑ የስታቲስቲክስ ስርጭቶች. ስለዚህ ክላስተር እንደ ባለብዙ-ዓላማ የማመቻቸት ችግር ሊቀረጽ ይችላል።

ተገቢው ዘዴ እና ግቤት መቼቶች (እንደ ለመጠቀም የርቀት ተግባር፣የእፍጋት ገደብ፣ወይም የሚጠበቁ ዘለላዎች ያሉ ንጥሎችን ጨምሮ) በእያንዳንዱ የውሂብ ስብስብ እና በውጤቶቹ የታሰበ አጠቃቀም ላይ ይወሰናል። ትንታኔ እንደዚ አይነት አውቶማቲክ ተግባር አይደለም፣ ነገር ግን ተደጋጋሚ የእውቀት ግኝት ወይም በይነተገናኝ ባለ ብዙ ዓላማ ማመቻቸት ነው። ይህ የክላስተር ዘዴ የሙከራ እና የስህተት ሙከራዎችን ያካትታል። ውጤቱ የሚፈለገውን ባህሪ እስኪያገኝ ድረስ ብዙ ጊዜ የውሂብ ቅድመ-ሂደትን እና የሞዴል መለኪያዎችን ማስተካከል አስፈላጊ ነው።

ከ"ክላስተር" ከሚለው ቃል በተጨማሪ አውቶማቲክ ምደባ፣ የቁጥር ታክሶኖሚ፣ bothryology እና typological analysisን ጨምሮ በርካታ ተመሳሳይ ትርጉም ያላቸው ቃላቶች አሉ። ስውር ልዩነቶች ብዙውን ጊዜ የመሰብሰቢያ ዘዴን በመጠቀም የሜታ ርዕሰ ጉዳይ ግንኙነቶችን ይፈጥራሉ። በመረጃ ማውጣቱ ወቅት የተገኙት ቡድኖች ትኩረት የሚስቡ ሲሆኑ፣ በአውቶማቲክ አመዳደብ እነዚህን ተግባራት የሚያከናውነው አድሎአዊ ኃይል ነው።

የክላስተር ትንተና በ1932 በ Kroeber በበርካታ ስራዎች ላይ የተመሰረተ ነበር። በ1938 በዙቢን እና በ1939 በሮበርት ትሪዮን ወደ ሳይኮሎጂ ገባ። እና እነዚህ ስራዎች በካቴል ከ1943 ጀምሮ የክላስተር ዘዴዎችን በንድፈ ሀሳብ ደረጃ ለመለየት ጥቅም ላይ ውለዋል።

ጊዜ

አጠቃቀምዘዴ
አጠቃቀምዘዴ

የ"ክላስተር" ጽንሰ-ሐሳብ በትክክል ሊገለጽ አይችልም። ይህ በጣም ብዙ የመሰብሰብ ዘዴዎች ካሉበት አንዱ ምክንያት ነው። አንድ የጋራ መለያ አለ፡-የመረጃ ዕቃዎች ስብስብ። ይሁን እንጂ የተለያዩ ተመራማሪዎች የተለያዩ ሞዴሎችን ይጠቀማሉ. እና እነዚህ እያንዳንዳቸው የመጠቅለያ ዘዴዎች የተለያዩ መረጃዎችን ያካትታሉ። በተለያዩ ስልተ ቀመሮች የተገኘው ፅንሰ-ሀሳብ በንብረቶቹ ላይ በእጅጉ ይለያያል።

ክላስተር ዘዴን መጠቀም በመመሪያዎቹ መካከል ያለውን ልዩነት ለመረዳት ቁልፉ ነው። የተለመዱ የክላስተር ቅጦች የሚከተሉትን ያካትታሉ፡

  • Centroid s. ይህ ለምሳሌ ኪ-ማለት ክላስተር እያንዳንዱን ዘለላ ከአንድ አማካይ ቬክተር ጋር ሲወክል ነው።
  • ግንኙነት ሞዴል s. ይህ ለምሳሌ ከርቀት ተያያዥነት ላይ ተመስርተው ሞዴሎችን የሚገነባ ተዋረዳዊ ስብስብ ነው።
  • የስርጭት ሞዴል s. በዚህ ሁኔታ ክላስተር የሚቀረፀው የሜታ ርዕሰ ጉዳይ ስታቲስቲካዊ ስርጭቶችን ለመፍጠር የክላስተር ዘዴን በመጠቀም ነው። እንደ ሁለገብ መደበኛ መለያየት፣ ለሚጠበቀው ከፍተኛ ስልተ-ቀመር ተግባራዊ ይሆናል።
  • Density model s. እነዚህ ለምሳሌ DBSCAN (Spatial Clustering Algorithm with Noise) እና OPTICS (Order Points for Structure Detection) ናቸው ዘለላዎችን በመረጃ ቦታ የተገናኙ ጥቅጥቅ ያሉ ክልሎች በማለት የሚገልጹት።
  • Subspace ሞዴል ሐ. በብክላስተር (እንዲሁም አብሮ-ክላስተር ወይም ሁለት ሁነታዎች በመባልም ይታወቃል) ቡድኖች ከሁለቱም አካላት እና ተገቢ ባህሪያት ጋር ተቀርፀዋል።
  • ሞዴል ሰ. አንዳንድ ስልተ ቀመሮች አያደርጉም።ሜታ-ርዕሰ-ጉዳይ ውጤቶችን ለማመንጨት እና በቀላሉ የመረጃ ማቧደንን ለማቅረብ ለክላስተር ዘዴቸው የተጣራ ግንኙነት።
  • በግራፍ s ላይ የተመሰረተ ሞዴል። ክሊክ ፣ ማለትም ፣ የአንጓዎች ንዑስ ስብስብ ፣ በጠርዙ ክፍል ውስጥ ያሉት እያንዳንዱ ሁለት ግንኙነቶች እንደ የክላስተር ቅርፅ ምሳሌ ሊወሰዱ ይችላሉ። የጠቅላላ ፍላጎቱ መዳከም ክዋሲ-ክሊኮች በመባል ይታወቃል። በትክክል ተመሳሳይ ስም በHCS ክላስተር ስልተ ቀመር ቀርቧል።
  • የነርቭ ሞዴሎች s. በጣም የታወቀው ቁጥጥር የማይደረግበት አውታረ መረብ ራስን ማደራጀት ካርታ ነው. እና እነዚህ ሞዴሎች ለሜታ-ርዕሰ-ጉዳይ ውጤቶች ምስረታ ከላይ ከተጠቀሱት አንድ ወይም ከዚያ በላይ የመሰብሰቢያ ዘዴዎች ጋር ሊመሳሰሉ የሚችሉት እነዚህ ሞዴሎች ናቸው። የነርቭ ኔትወርኮች አስፈላጊውን የርእሰመምህር ወይም የገለልተኛ አካል ትንተና ሲተገብሩ የንዑስ ቦታ ስርዓቶችን ያካትታል።

ይህ ቃል በእውነቱ የእነዚህ ቡድኖች ስብስብ ነው፣ እሱም አብዛኛውን ጊዜ በመረጃ ማሰባሰቢያ ዘዴዎች ስብስብ ውስጥ ያሉትን ሁሉንም ነገሮች ይይዛል። በተጨማሪም፣ እርስ በእርሳቸው የተገነቡ የስርዓቶች ተዋረድ ያሉ የክላስተር ግንኙነቶችን ሊያመለክት ይችላል። መቧደኑ በሚከተሉት ገጽታዎች ሊከፋፈል ይችላል፡

  • የሃርድ ሴንትሮይድ ክላስተር ዘዴ። እዚህ፣ እያንዳንዱ ነገር የቡድን ነው ወይም ከእሱ ውጭ ነው።
  • ለስላሳ ወይም ደብዛዛ ስርዓት። በዚህ ጊዜ፣ እያንዳንዱ ነገር አስቀድሞ ለየትኛውም ክላስተር የተወሰነ ነው። እንዲሁም c-means fuzzy clustering method ይባላል።

እና ተጨማሪ ስውር ልዩነቶችም ሊኖሩ ይችላሉ። ለምሳሌ፡

  • የጥብቅ ክፍፍል ክላስተር። እዚህእያንዳንዱ ነገር በትክክል የአንድ ቡድን ነው።
  • ጥብቅ ክፍፍል ከውጪዎች ጋር። በዚህ ሁኔታ ፣ነገሮች የማንኛውም ስብስብ ላይሆኑ እና እንደ አላስፈላጊ ሊቆጠሩ ይችላሉ።
  • ተደራራቢ ክላስተር (እንዲሁም አማራጭ፣ ከበርካታ እይታዎች ጋር)። እዚህ, እቃዎች ከአንድ በላይ ቅርንጫፍ ሊሆኑ ይችላሉ. በተለምዶ ጠንካራ ዘለላዎችን የሚያሳትፍ።
  • የተዋረድ ክላስተር ዘዴዎች። የልጆች ቡድን የሆኑ ነገሮች የወላጅ ንዑስ ስርዓትም ናቸው።
  • የንዑስ ቦታ ምስረታ። ከተደራራቢ ዘለላዎች ጋር ተመሳሳይ ቢሆንም፣ በልዩ ሁኔታ በተገለጸ ሥርዓት ውስጥ፣ የጋራ ቡድኖች መደራረብ የለባቸውም።

መመሪያዎች

ለመፍጠር የክላስተር ዘዴን በመጠቀም
ለመፍጠር የክላስተር ዘዴን በመጠቀም

ከላይ እንደተገለፀው የክላስተር ስልተ ቀመሮች በክላስተር ሞዴላቸው መሰረት ሊመደቡ ይችላሉ። የሚከተለው ግምገማ የእነዚህ መመሪያዎች በጣም ታዋቂ ምሳሌዎችን ብቻ ይዘረዝራል። ከ100 በላይ የታተሙ ስልተ ቀመሮች ሊኖሩ ስለሚችሉ ሁሉም ሞዴሎችን ለክላስተር አያቀርቡም እና ስለዚህ በቀላሉ ሊመደቡ አይችሉም።

ምንም በትክክል ትክክለኛ የክላስተር አልጎሪዝም የለም። ነገር ግን, ከላይ እንደተገለፀው, መመሪያው ሁልጊዜ በተመልካቾች እይታ መስክ ነው. ለአንድ የተወሰነ ችግር በጣም ተስማሚ የሆነው የክላስተር አልጎሪዝም ብዙውን ጊዜ በሙከራ መመረጥ አለበት፣ አንዱን ሞዴል ከሌላው ይልቅ የሚመርጥበት የሂሳብ ምክንያት ከሌለ በስተቀር። ለአንድ ነጠላ ዓይነት የተነደፈ ስልተ ቀመር አብዛኛውን ጊዜ እንደማይሠራ ልብ ሊባል ይገባልየተለየ ርዕሰ ጉዳይ የያዘ የውሂብ ስብስብ። ለምሳሌ፣ k-means ኮንቬክስ ያልሆኑ ቡድኖችን ማግኘት አይችልም።

በግንኙነት ላይ የተመሰረተ ስብስብ

የክላስተር ዘዴ
የክላስተር ዘዴ

ይህ ማህበር በስሙ፣ ተዋረዳዊ ሞዴል በመባልም ይታወቃል። በተለመደው ሀሳብ ላይ የተመሰረተው እቃዎች በጣም ርቀው ከሚገኙት ይልቅ ከአጎራባች ክፍሎች ጋር የተገናኙ ናቸው. እነዚህ ስልተ ቀመሮች ነገሮችን ያገናኛሉ, እንደ ርቀታቸው የተለያዩ ስብስቦችን ይፈጥራሉ. አንድ ቡድን በዋናነት የተለያዩ የክላስተር ክፍሎችን ለማገናኘት በሚያስፈልገው ከፍተኛ ርቀት ሊገለጽ ይችላል። በሁሉም ርቀት ላይ, ሌሎች ቡድኖች ይመሰረታሉ, ይህም በዴንዶግራም በመጠቀም ሊወከሉ ይችላሉ. ይህ “ተዋረድ ክላስተር” የሚለው የተለመደ ስም ከየት እንደመጣ ያብራራል። ያም ማለት እነዚህ ስልተ ቀመሮች የውሂብ ስብስብ አንድ ክፍልፋይ አይሰጡም, ይልቁንም ሰፊ የስልጣን ቅደም ተከተል ይሰጣሉ. በተወሰኑ ርቀቶች ላይ እርስ በርስ የሚፋሰሱበት ምክንያት ለእሱ ምስጋና ይግባው. በዴንድሮግራም ውስጥ, y-ዘንጉ ስብስቦች የሚሰበሰቡበትን ርቀት ያመለክታል. እና እቃዎቹ ቡድኖቹ እንዳይቀላቀሉ በ X መስመር ተደርድረዋል።

በግንኙነት ላይ የተመሰረተ ስብስብ ርቀቶችን በማስላት መንገድ የሚለያዩ አጠቃላይ ዘዴዎች ቤተሰብ ነው። ከተለመደው የርቀት ተግባራት ምርጫ በተጨማሪ ተጠቃሚው በግንኙነት መስፈርት ላይ መወሰን ያስፈልገዋል. ክላስተር ብዙ ነገሮችን ያቀፈ በመሆኑ እሱን ለማስላት ብዙ አማራጮች አሉ። ታዋቂ ምርጫ ነጠላ-ሊቨር ቡድን በመባል ይታወቃል, ይህ ዘዴ ነውሙሉ ማገናኛ፣ እሱም UPGMA ወይም WPGMA (ክብደት የሌለው ወይም ክብደት የሌለው የጥንዶች ስብስብ ከአርቲሜቲክ አማካይ፣ በተጨማሪም የአማካይ ማያያዣ ክላስተር በመባልም ይታወቃል)። በተጨማሪም የሥርዓተ ተዋረድ አጎራባች ሊሆን ይችላል (ከግላዊ አካላት ጀምሮ እና በቡድን በማጣመር) ወይም መከፋፈል (በተሟላ የውሂብ ስብስብ ጀምሮ እና ወደ ክፍሎች ይከፋፍሏቸዋል)።

የተከፋፈለ ስብስብ

ክላስተር የመፍጠር ዘዴ
ክላስተር የመፍጠር ዘዴ

እነዚህ ሞዴሎች በክንፍሎች ላይ ከተመሰረቱ ስታቲስቲክስ ጋር በጣም የተቆራኙ ናቸው። ዘለላዎች በቀላሉ ከተመሳሳይ ስርጭት ጋር የተያያዙ ነገሮች ተብለው ሊገለጹ ይችላሉ። የዚህ አሰራር ጠቃሚ ገፅታ ሰው ሰራሽ የመረጃ ስብስቦችን ከመፍጠር ጋር በጣም ተመሳሳይ ነው. የዘፈቀደ ነገሮችን ከስርጭት በማንሳት።

የእነዚህ ዘዴዎች ንድፈ ሃሳባዊ መሰረት በጣም ጥሩ ቢሆንም፣ በአምሳያው ውስብስብነት ላይ ገደብ ካልተጣለ በስተቀር ከመጠን በላይ መገጣጠም በሚባል አንድ ቁልፍ ችግር ይሰቃያሉ። አንድ ትልቅ ማህበር ብዙውን ጊዜ ውሂቡን በተሻለ ሁኔታ ያብራራል፣ ይህም ትክክለኛውን ዘዴ ለመምረጥ አስቸጋሪ ያደርገዋል።

የጋውሲያን ድብልቅ ሞዴል

ይህ ዘዴ ሁሉንም አይነት የመጠበቅ ከፍተኛ ስልተ ቀመሮችን ይጠቀማል። እዚህ፣ የመረጃ ቋቱ ዘወትር የሚቀረፀው በዘፈቀደ የተጀመሩ እና መመዘኛዎቹ ከመረጃ ቋቱ ጋር በተሻለ ሁኔታ እንዲገጣጠሙ በቋሚ (ከመሻር ለማስቀረት) የጋውሲያን ስርጭቶች ብዛት ነው። ይህ ስርዓት ወደ አካባቢያዊ ምቹነት ይሰበሰባል. ለዚህም ነው ብዙ ሩጫዎች ሊሰጡ የሚችሉትየተለያዩ ውጤቶች. በጣም ጥብቅ የሆነውን ስብስብ ለማግኘት፣ ባህሪያቶቹ ብዙውን ጊዜ ለጋውሲያን ስርጭት በብዛት ይወሰዳሉ። እና ለስላሳ ቡድኖች ይህ አስፈላጊ አይደለም።

በስርጭት ላይ የተመሰረተ ስብስብ በመጨረሻ በባህሪያት መካከል ያለውን ዝምድና እና ጥገኝነት የሚይዙ ውስብስብ ሞዴሎችን ይፈጥራል። ይሁን እንጂ እነዚህ ስልተ ቀመሮች በተጠቃሚው ላይ ተጨማሪ ጫና ይፈጥራሉ. ለብዙ የገሃዱ ዓለም የመረጃ ስብስቦች፣ በአጭሩ የተገለጸ የሂሳብ ሞዴል ላይኖር ይችላል (ለምሳሌ፣ የጋውስያን ስርጭት በትክክል ጠንካራ ግምት ነው ብለን መውሰድ)።

Density ላይ የተመሰረተ ስብስብ

ስብስብ ለመፍጠር
ስብስብ ለመፍጠር

በዚህ ምሳሌ ቡድኖቹ በመሠረቱ ከቀሪው የመረጃ ቋት የበለጠ ያለመከሰስ አቅም ያላቸው አካባቢዎች ተብለው ይገለፃሉ። በእነዚህ ብርቅዬ ክፍሎች ውስጥ ያሉ ነገሮች፣ ሁሉንም ክፍሎች ለመለየት አስፈላጊ የሆኑት፣ አብዛኛውን ጊዜ እንደ ጫጫታ እና የጠርዝ ነጥብ ይቆጠራሉ።

በጣም ታዋቂው ጥግግት ላይ የተመሰረተ ክላስተር ዘዴ DBSCAN (የSpatial Noise Clustering Algorithm) ነው። ከብዙ አዳዲስ ዘዴዎች በተለየ መልኩ "density accessability" የሚባል በደንብ የተገለጸ የክላስተር አካል አለው። በአገናኝ ላይ ከተመሠረተ ክላስተር ጋር ተመሳሳይ፣ በተወሰኑ የርቀት ገደቦች ውስጥ ባሉ የግንኙነት ነጥቦች ላይ የተመሠረተ ነው። ሆኖም, ይህ ዘዴ የሚሰበስበው የክብደት መስፈርትን የሚያሟሉ ዕቃዎችን ብቻ ነው. በመጀመሪያው ስሪት፣ በዚህ ራዲየስ ውስጥ ካሉት ሌሎች ነገሮች ዝቅተኛው ቁጥር ተብሎ ተገልጿል፣ ክላስተር ሁሉንም ያካትታልጥግግት-ነክ እቃዎች (ከሌሎች ዘዴዎች በተለየ የነጻ ቡድን ሊመሰርቱ ይችላሉ) እና በተፈቀደው ክልል ውስጥ ያሉ ሁሉም እቃዎች።

ሌላው የDBSCAN አስደሳች ንብረት ውስብስቡ በጣም ዝቅተኛ መሆኑ ነው - ከመረጃ ቋቱ ጋር የሚቃረኑ የመስመር መጠይቆችን ይፈልጋል። እና ደግሞ ያልተለመደው በእያንዳንዱ ሩጫ ውስጥ በመሠረቱ ተመሳሳይ ውጤቶችን ማግኘቱ ነው (ይህ ለዋና እና ጫጫታ ነጥቦች የሚወሰን ነው ፣ ግን ለድንበር አካላት አይደለም)። ስለዚህ፣ ብዙ ጊዜ ማስኬድ አያስፈልግም።

የDBSCAN እና OPTICS ዋናው ጉዳታቸው የክላስተር ድንበሮችን ለመለየት የክብደት መቀነስ መጠበቃቸው ነው። ለምሳሌ፣ በዳታ ስብስቦች ውስጥ ተደራራቢ የጋውሲያን ስርጭቶች-ለሰው ሰራሽ ነገሮች የተለመደ የአጠቃቀም ጉዳይ-በእነዚህ ስልተ ቀመሮች የሚፈጠሩ የክላስተር ድንበሮች ብዙውን ጊዜ የዘፈቀደ ሆነው ይታያሉ። ይህ የሚሆነው የቡድኖች ጥግግት ያለማቋረጥ እየቀነሰ በመምጣቱ ነው። እና በGaussian ድብልቅ ዳታ ስብስብ ውስጥ፣ እነዚህ ስልተ ቀመሮች ሁል ጊዜ ማለት ይቻላል እንደ EM clustering ያሉ ዘዴዎችን ይበልጣሉ፣ እነዚህን አይነት ስርዓቶች በትክክል መቅረጽ ይችላሉ።

አማካኝ መፈናቀል በጠቅላላው የከርነል ግምት መሰረት እያንዳንዱ ነገር ወደ ሰፈር በጣም ጥቅጥቅ ወዳለው ቦታ የሚንቀሳቀስበት ክላስተር አካሄድ ነው። በመጨረሻ ፣ እቃዎቹ ወደ አካባቢያዊ የማይነቃነቅ ከፍተኛነት ይሰበሰባሉ ። ከ k-ማለት ክላስተር ጋር በሚመሳሰል መልኩ፣ እነዚህ "የጥቅጥቅነት መስህቦች" የውሂብ ስብስብ ተወካዮች ሆነው ሊያገለግሉ ይችላሉ። ግን አማካኝ ለውጥከDBSCAN ጋር የሚመሳሰሉ የዘፈቀደ ቅርጽ ያላቸው ስብስቦችን መለየት ይችላል። ውድ በሆነው የድግግሞሽ ሂደት እና የክብደት ግምት፣ አማካኝ መፈናቀሉ ብዙውን ጊዜ ከDBSCAN ወይም k-Means ቀርፋፋ ነው። በተጨማሪም የከርነል ጥግግት ግምት አንድ ወጥ ባልሆነ ባህሪ ምክንያት የተለመደው የፈረቃ አልጎሪዝም ወደ ከፍተኛ መጠን ያለው መረጃ ተግባራዊነት አስቸጋሪ ነው፣ ይህም የክላስተር ጭራዎች ከመጠን በላይ መሰባበርን ያስከትላል።

ደረጃ

የሜታ ርእሰ ጉዳይ መፈጠርን የመሰብሰብ ዘዴ
የሜታ ርእሰ ጉዳይ መፈጠርን የመሰብሰብ ዘዴ

የስብስብ ውጤቶችን ማረጋገጥ እራሱን መሰብሰብን ያህል ከባድ ነው። ታዋቂ አቀራረቦች "ውስጣዊ" ውጤትን (ስርአቱ ወደ አንድ የጥራት መለኪያ ሲቀንስ) እና በእርግጥ "ውጫዊ" ውጤት (እስብስቡ አሁን ካለው "የመሬት እውነት" ምደባ ጋር ሲወዳደር) ያካትታሉ. እና የሰው ኤክስፐርት በእጅ ውጤት እና በተዘዋዋሪ ውጤት የሚገኘው በታሰበው መተግበሪያ ውስጥ የመሰብሰብን ጥቅም በመመርመር ነው።

የውስጥ ባንዲራ እርምጃዎች እራሳቸው እንደ ኢላማዎች ስብስብ ሊቆጠሩ የሚችሉ ባህሪያትን ስለሚወክሉ በችግር ይሰቃያሉ። ለምሳሌ በ Silhouette Coefficient የተሰጠውን መረጃ መቧደን ይቻላል፣ ይህን ለማድረግ የሚታወቅ ቀልጣፋ አልጎሪዝም ከሌለ በስተቀር። ለግምገማ እንዲህ ያለውን የውስጥ መለኪያ በመጠቀም፣ የማመቻቸት ችግሮችን ተመሳሳይነት ማወዳደር የተሻለ ነው።

የውጭ ምልክቱ ተመሳሳይ ችግሮች አሉት። እንደዚህ ዓይነት "የመሬት እውነት" መለያዎች ካሉ, መሰብሰብ አያስፈልግም. እና በተግባራዊ አፕሊኬሽኖች ውስጥ, በአብዛኛው እንደዚህ አይነት ጽንሰ-ሐሳቦች የሉም. በሌላ በኩል፣ መለያዎቹ የውሂብ ስብስብ ሊኖር የሚችለውን አንድ ክፍል ብቻ ያንፀባርቃሉ፣ ይህ ማለት ግን አይደለም።ሌላ (ምናልባት የተሻለ) ስብስብ እንደሌለ።

ስለዚህ ከእነዚህ አካሄዶች ውስጥ አንዳቸውም ቢሆኑ ትክክለኛውን ጥራት ሊወስኑ አይችሉም። ነገር ግን ይህ የሰውን ግምገማ ይጠይቃል, እሱም በጣም ተጨባጭ ነው. ቢሆንም፣ እንደዚህ ያሉ አሀዛዊ መረጃዎች መጥፎ ስብስቦችን በመለየት ረገድ መረጃ ሰጪ ሊሆኑ ይችላሉ። ነገር ግን አንድ ሰው የአንድን ሰው ተጨባጭ ግምገማ መቀነስ የለበትም።

የውስጥ ምልክት

የስብስብ ውጤት በራሱ በተሰበሰበ መረጃ ላይ ተመስርቶ ሲገመገም ይህ ቃል ይባላል። እነዚህ ዘዴዎች በአጠቃላይ በቡድኖች መካከል ከፍተኛ ተመሳሳይነት እና ዝቅተኛነት ያላቸውን ቡድኖች ለሚፈጥር ስልተ ቀመር ይመድባሉ። በክላስተር ግምገማ ውስጥ የውስጥ መመዘኛዎችን መጠቀም ከሚያስከትላቸው ጉዳቶች አንዱ ከፍተኛ ውጤት ወደ ውጤታማ የመረጃ ማግኛ አፕሊኬሽኖች የሚያመራ አለመሆኑ ነው። እንዲሁም፣ ይህ ነጥብ ተመሳሳይ ሞዴል ለሚጠቀሙ ስልተ ቀመሮች ያደላ ነው። ለምሳሌ፣ k- ማለት ክላስተር ማሰባሰብ በተፈጥሮው የባህሪ ርቀቶችን ያሻሽላል፣ እና በእሱ ላይ የተመሰረተ ውስጣዊ መስፈርት ውጤቱን ክላስተር ሊገምተው ይችላል።

ስለዚህ እነዚህ የግምገማ እርምጃዎች አንድ ስልተ-ቀመር ከሌላው በተሻለ ሁኔታ የሚሰራባቸውን ሁኔታዎች ለማወቅ በጣም ተስማሚ ናቸው። ነገር ግን ይህ ማለት እያንዳንዱ መረጃ ከሌሎች የበለጠ አስተማማኝ ውጤቶችን ይሰጣል ማለት አይደለም. በእንደዚህ ዓይነት ኢንዴክስ የሚለካው የማረጋገጫ ጊዜ የሚወሰነው መዋቅሩ በውሂብ ስብስብ ውስጥ አለ በሚለው ማረጋገጫ ላይ ነው። ስብስቡ ሥር ነቀል ከሆነ ለአንዳንድ ዓይነቶች የተሰራ አልጎሪዝም ምንም ዕድል የለውምየተለየ ቅንብር ወይም ግምገማው የተለያዩ መመዘኛዎችን የሚለካ ከሆነ. ለምሳሌ፣ k-means ክላስተር የሚያገኘው ኮንቬክስ ዘለላዎችን ብቻ ነው፣ እና ብዙ የውጤት ኢንዴክሶች ተመሳሳይ ቅርጸት ነው የሚወስዱት። ኮንቬክስ ባልሆኑ ሞዴሎች በመረጃ ቋት ውስጥ፣ k-means እና የተለመዱ የግምገማ መስፈርቶችን መጠቀም ተገቢ አይደለም።

የውጭ ግምገማ

በእንዲህ አይነት ኳሶች፣የስብስብ ውጤቶች የሚገመገሙት ለመቧደን ጥቅም ላይ ባልዋለ ውሂብ ነው። ማለትም እንደ የታወቁ የክፍል መለያዎች እና ውጫዊ ሙከራዎች። እንደነዚህ ያሉ ጥያቄዎች ቀደም ሲል የተመደቡ ዕቃዎችን ያቀፈ ሲሆን ብዙውን ጊዜ በባለሙያዎች (በሰዎች) የተፈጠሩ ናቸው. እንደዚሁ የማጣቀሻ ኪቶች ለግምገማ እንደ ወርቅ ደረጃ ሊታዩ ይችላሉ። እነዚህ የነጥብ አሰጣጥ ዘዴዎች ክላስተር ማሰባሰቡ ለተሰጡት የማመሳከሪያ ክፍሎች ምን ያህል እንደሚጠጋ ይለካሉ። ነገር ግን፣ ይህ ለትክክለኛ መረጃ በቂ ነው ወይንስ ከትክክለኛው እውነት ጋር ለተቀነባበሩ ስብስቦች ብቻ በቅርቡ ውይይት ተደርጓል። ክፍሎች የውስጥ መዋቅር ሊይዙ ስለሚችሉ እና ያሉት ባህሪያት ዘለላዎችን መለያየትን አይፈቅዱም። እንዲሁም ከእውቀት ግኝት እይታ አንጻር የታወቁ እውነታዎችን እንደገና ማባዛት የሚጠበቀው ውጤት ላይኖረው ይችላል. በቡድን ሂደት ውስጥ ሜታ-መረጃ (እንደ ክፍል መለያዎች) ጥቅም ላይ በሚውልበት ልዩ የተገደበ የክላስተር ሁኔታ ውስጥ፣ ሁሉንም መረጃዎች ለግምገማ ዓላማዎች ማቆየት ቀላል አይደለም።

አሁን በክላስተር ዘዴዎች ላይ የማይተገበር እና የትኞቹ ሞዴሎች ለእነዚህ አላማዎች ጥቅም ላይ እንደሚውሉ ግልጽ ነው።

የሚመከር: