Sinundan ng pag-aaral na ito ang proseso ng pagtuklas ng pangkalahatang kaalaman: pre-processing, pagsusuri ng data, at pagpapatunay. Ang mga sumusunod na seksyon ay nagdedetalye ng proseso para sa bawat yugto.
Preprocessing
Mga pinagmumulan ng data
Ang undergraduate na programang medikal sa National Autonomous University of Mexico Faculty of Medicine ay may malaking populasyon ng mag-aaral, 10,104 na mag-aaral noong 2022 [36]. Kapag nag-aplay ang mga mag-aaral para sa pagpasok, ang impormasyong nauugnay sa kapaligiran ng kanilang pamilya, katayuan sa sosyo-ekonomiko at naunang akademikong landas ay kinokolekta sa pamamagitan ng isang palatanungan. Pagkatapos ma-enroll ang mga mag-aaral sa programa, ang kanilang kaalaman sa walong paksa ay tinasa gamit ang isang standardized multiple-choice question (MCQ) diagnostic exam. Sa panahon ng programa, ang data sa kanilang pag-unlad ay naitala (mga grado, uri ng panghuling pagsusulit -regular o resitTalababa 1– at nakamit ang mga kredito). Sa katapusan ng bawat akademikong taon, ang mga mag-aaral ay nangangailangan ng isang tiyak na bilang ng mga kredito upang makapag-enroll sa mga kurso sa susunod na taon. Ang mga mag-aaral na may mas kaunti sa mga kinakailangang kredito ay kailangang mag-enroll muli sa mga kursong nabigo sila, at hindi sila ma-promote sa susunod na curricular year, kaya nawalan sila ng isang taon at naantala sa kanilang akademikong landas.
Ang mga mag-aaral ay ikinategorya bilang alinman sa regular o hindi regular, batay sa bilang ng mga kredito na kanilang nakuha sa kanilang unang akademikong taon:
-
Regular: mga mag-aaral na matagumpay na nakatapos ng lahat ng kinakailangang kurso para sa unang taon at nakakuha ng lahat ng kinakailangang kredito sa panahong iyon (halaga 1).
-
Hindi regular: mga mag-aaral na bumagsak sa isa o higit pa sa mga kinakailangang kurso para sa unang taon, at dahil dito ay wala ang lahat ng kinakailangang kredito (value 0).
Mga katangian ng data
Gumamit ang pag-aaral na ito ng data mula sa 7,976 na hindi nakikilalang mga mag-aaral mula sa 2011 hanggang 2017 cohorts ng programa. Kasama dito ang impormasyon mula sa mga resulta ng diagnostic na pagsusulit ng mga mag-aaral, kasaysayang pang-akademiko, mga katangian ng sociodemographic at kapaligiran ng pamilya [12, 37, 38]. Kasama sa pangunahing dataset ang 48 na variable (24 na pangkategorya, 8 discrete numerical, at 16 na tuloy-tuloy na numerical). Ang talahanayan 1 ay naglalaman ng lahat ng mga variable sa dataset na inuri sa iba’t ibang grupo: demograpiko ng mag-aaral, kapaligiran ng pamilya, katayuan sa sosyo-ekonomiko, dating karanasan sa edukasyon, uri ng pagpasok at pag-unlad ng mag-aaral.
Ang talahanayan 2 ay naglilista ng mga pangkat ng mga variable mula sa pagganap ng mga mag-aaral sa admission diagnostic exam: mga marka ng mga mag-aaral sa walong asignatura sa mataas na paaralan, kabilang ang kahusayan sa Espanyol at Ingles. Mula sa puntong ito, gagamitin namin ang terminong dating kaalaman ng mga mag-aaral upang sumangguni sa pangkat ng mga variable na ito.
Ang dependent variable (ACADEMIC_STATUS_1STY) ay kinakalkula gamit ang porsyento ng mga credit na nakumpleto sa katapusan ng unang taon (PROGRESS).
Paghahanda ng dataset
Mula sa unang 7,976 na tala, 910 (11.4%) ang hindi kasama sa pagsusuri dahil mayroon silang malaking porsyento ng nawawalang data (mayroon silang kaunti o walang impormasyon sa kanilang demograpikong survey o hindi sila kumuha ng diagnostic na pagsusulit). Nagkaroon ng kaunting pagkakaiba sa distribusyon ng klase, 47.8% ng mga mag-aaral ang ikinategorya bilang irregular at 52.7% bilang regular. Ang mga modelong EDM na ginamit sa pag-aaral na ito ay may iba’t ibang mga kinakailangan sa pre-processing ng data. Para sa modelong Naïve Bayes, ang mga numeric na variable ay na-convert sa kategorya upang magkaroon ng mas balanseng distribusyon ng bilang ng mga mag-aaral na kabilang sa isang katangian na posibleng mga halaga. Halimbawa, ang isang variable na sumasalamin sa isang marka ay magkakaroon ng ilang mga mag-aaral na may partikular na halaga ng numero, kumpara sa bilang ng mga mag-aaral na nasa loob ng isang hanay ng grado (hal., 50–60%). Nakakatulong ang conversion na ito sa interpretasyon kung paano naiimpluwensyahan ng iba’t ibang value ang modelo pati na rin ang pagpapahusay sa katumpakan ng modelo [39, 40].
Para sa parehong mga modelo, ang paunang dataset ay nahahati sa isang “set ng pagsasanay” na binubuo ng 80% na random na piniling mga tala ng mag-aaral, at isang “set ng pagsubok” na may natitirang 20%. Ang distribusyon na ito ay pinili nang basta-basta sinusubukang balansehin ang katumpakan ng mga modelo at maiwasan ang overfitting.
Mga artipisyal na neural network
Ang mga variable na kategorya ay na-convert sa mga numerical na halaga sa pamamagitan ng paglalapat ng one-hot encoding, na naghihiwalay sa mga kategorya sa loob ng bawat variable at binago ang mga ito sa mga dichotomous na variable na may halaga na 1 kung magagamit ang attribute at 0 kung hindi. [41]. Ang mga nawawalang halaga ay pinalitan gamit ang isang maayos na imputation sa SimpleImputer library ng Scikit-learn sa Python. Sa kaso ng mga numerical variable, ang mga nawawalang value ay pinalitan ng mean; sa mga kategoryang variable, ginamit ang mode dahil ang porsyento ng mga nawawalang halaga ay mas mababa sa 10% [42].
Naïve Bayes
Ang mga tuluy-tuloy na numeric na variable na nauugnay sa mga porsyento ay ikinategorya sa limang grupo gamit ang mga percentile value bilang isang sanggunian [43]. Ang mga kategorya para sa mga discrete numeric na variable ay muling tinukoy upang ang bawat isa ay naglalaman ng pantay na bilang ng mga kaso. Dahil ang mga nawawalang halaga ay itinuring bilang isang posibleng halaga para sa mga variable, hindi ginamit ang mga pamamaraan ng imputation.
Pagsusuri sa datos
Mga modelo ng data mining
Ang mga modelo ng ANN at ang Naïve Bayes ay napili dahil sa kanilang naiulat na mataas na pagganap sa mga gawain sa pag-uuri [39, 44]. Dalawang gawain sa pag-uuri ang isinagawa sa parehong mga modelo: ang isa ay upang mahulaan ang pagiging regular ng mga mag-aaral at ang isa ay upang mahulaan ang kanilang iregularidad. Kahit na ang pagsubok na hulaan ang parehong mga sitwasyon ay maaaring maging kalabisan, ginawa ito upang tuklasin kung magkakaroon ng anumang pagkakaiba sa mga modelo tungkol sa mga resulta at ang impluwensya ng mga predicting variable.
Mga artipisyal na neural network
Ang mga ANN ay isang machine learning algorithm na inspirasyon ng physiology ng mga neuron [27], sa partikular, kung paano nagpapadala ang isang neuron ng isang salpok batay sa iba’t ibang koneksyon nito. Sa modelo, ang neuron ay isang unit na maglalabas ng numeric na resulta sa pamamagitan ng pag-compute ng iba’t ibang timbang, input value at arbitrary bias sa pamamagitan ng activation function. [27]. Para sa pag-aaral na ito, ginamit ang isang Multilayer Perceptron (MLP) neural network na may backpropagation (BP) na may dalawang nakatagong layer. Ang mga modelo ay nilikha gamit ang Python Scikit-learn library para sa pamamahala ng data at ang TensorFlow ng Google gamit ang Keras interface library para sa pag-set up at pagpapatakbo ng mga modelo. Pino-pino ang mga ANN batay sa kanilang katumpakan, pagiging tiyak at pagiging sensitibo.
Ang isang kawalan ng modelong ito ay ang mga ANN ay itinuturing na “mga itim na kahon”, imposibleng hatiin at maunawaan nang eksakto kung paano gumagawa ang network ng isang tiyak na resulta o kung paano ito naiimpluwensyahan ng bawat variable. [27]. Gayunpaman, may ilang mga pamamaraan na maaaring matantya ang impluwensya ng bawat variable sa modelo tulad ng pagsusuri sa sensitivity. Isang serye ng mga dataset ang inihanda kung saan ang isang variable ay inalis mula sa bawat dataset, pagkatapos ay maraming ANN ang sinanay at ang kanilang katumpakan ay nakuha sa pamamagitan ng cross validation. Pagkatapos, niraranggo ang mga variable batay sa kung gaano kalaki ang epekto ng pagbabawas sa mga ito mula sa dataset sa katumpakan ng modelo.
Naïve Bayes
Ang NB ay isang probabilistic classification method na sapat para sa mga set ng data na may mataas na bilang ng mga variable. Gaya ng ipinahihiwatig ng pangalan nito, ito ay nakabatay sa Bayes’ theorem at ipinapalagay na ang predictive variable ay hindi nakadepende sa kondisyon. Tinatantya nito ang post-probability ng isang kaganapan o kundisyon na ibinigay sa mga halaga ng predictive variable [45].
Ang modelo ay nilikha gamit ang R programming language. Una, kinakalkula ang posibilidad na mapabilang sa isang klase (hal. regularity) para sa bawat variable na posibleng halaga. Pangalawa, tinantya ang isang marka para sa mga halaga ng bawat variable na isinasaalang-alang ang posibilidad na mapabilang sila sa target na klase. Ikatlo, nakuha ang marka para sa bawat mag-aaral sa pamamagitan ng pagdaragdag ng indibidwal na marka ng halaga ng bawat variable batay sa kanilang data. Sa wakas, isinagawa ang pagsusuri upang piliin ang pinakamahusay na threshold ng marka para sa pag-uuri ng isang mag-aaral. Ang isang ROC curve analysis ay isinagawa upang matukoy ang pinakamainam na threshold ng marka. Maramihang mga modelo ay sinanay na may iba’t ibang mga limitasyon (mula − 9.73 hanggang 8.48) upang matukoy kung ang isang mag-aaral ay nasa panganib o hindi. Ang pinakamahusay na halaga para sa threshold (0.43) ay natukoy sa pamamagitan ng pagsasaalang-alang sa pagiging sensitibo at maling positibong rate ng mga modelo.
Kabaligtaran sa mga ANN, sa modelong Naïve Bayes, posibleng suriin ang impluwensya ng bawat variable sa modelo batay sa predictive value nito. [42]. Upang mas maunawaan ang kahalagahan ng bawat variable at ang mga halaga nito, ang epsilon ang mga halaga ay kinakalkula:
$${\epsilon}_{{X}_{i}}=\frac{{N}_{{X}_{i}}[P\left({X}_{i}\right)-P\left({C}_{k}\right)]}{{\kaliwa[{N}_{{X}_{i}}P\right({C}_{k}\left)\right(1-P\left({C}_{k}\right)]}^{1/2}}$$
saan \({C}_{k}\) kumakatawan sa klase, \({X}_{i}\) ang katangian alinsunod sa kategorya ng tugon at \({N}_{{X}_{i}}\)ang bilang ng mga mag-aaral na may katangian \({X}_{i}\). Mga kategorya na may epsilon ang mga halagang higit sa 2 o mas mababa sa − 2 ay itinuturing na makabuluhan para sa hula [42, 43].
Pagpapatunay
Ang parehong mga modelo ay napatunayan gamit ang isang pagsubok na dataset upang masuri kung paano sila gaganap sa bagong data. Sinuri ang mga modelo batay sa kanilang katumpakan, sensitivity, specificity, positive predictive value, at negatibong predictive value. Ang mga parameter na ito ay ginamit dahil sa kanilang pagiging kapaki-pakinabang para sa pagdidisenyo ng mga interbensyon. Nagbibigay ang mga ito ng mas mahusay na pag-unawa sa mga limitasyon ng mga modelo at kung paano sila maipapatupad sa isang indibidwal o sukat ng populasyon.
Ang katumpakan ay kumakatawan sa porsyento ng mga tamang klasipikasyon na natamo ng isang modelo.
$$accuracy=\frac{Tama\;classified}{Kabuuan\;populasyon}$$
Ang katiyakan ay nagpapahiwatig ng porsyento ng mga mag-aaral na hindi nabibilang sa target na klase at inuri tama sa pamamagitan ng modelo.
$$specificity=\frac{True\;negatives}{Total\;negatives}$$
Ang pagiging sensitibo ay tumutukoy sa porsyento ng mga mag-aaral na nabibilang sa target na grupo at inuri tama sa pamamagitan ng modelo.
$$sensitivity=\frac{Positives\;correctly\;classified}{Totalpositives}$$
Ang positibong predictive value ay nagpapahiwatig ng posibilidad na ang isang mag-aaral nabibilang sa target na grupo na ibinigay na ang modelo ay hinulaang kabilang sila dito.
$$ppv=\frac{True\;positive}{Total\;positive}$$
Ang negatibong predictive value ay ang posibilidad na gawin ng isang mag-aaral hinde kabilang sa target na grupo dahil hindi sila inuri ng modelo bilang ganoon.
$$npv=\frac{True\;negatives}{Total\;negatives}$$