Ang pitong pinakakamakailang available na Paper 1 ay pinili mula sa Faculty of Public Health na available sa publiko na question bank (Enero 2014– Enero 2017). Ang Papel 1 ay nagsasama ng 10 tanong na nangangailangan ng maikli, katamtaman at mahabang anyo na mga tugon. Nahahati ito sa 5 seksyong batay sa paksa, bawat isa ay may 2 tanong. Ang mga papel mula sa pre-2014 ay hindi kasama, dahil binubuo ang mga ito ng 10-marka na mga tanong na istilo ng sanaysay. Malaki ang pagkakaiba ng mga ito sa kasalukuyang istilo ng mga tanong, na palaging hinahati-hati sa hindi bababa sa dalawang bahagi.
Upang makabuo ng mga tugon mula sa ChatGPT, ang bawat bahagi ng tanong ay inilagay at na-format ng text ng tanong na sinusundan ng direktang tanong na pinaghihiwalay ng isang bagong linya. Para sa mga mahabang-form na sagot, binigyan ng prompt ang ChatGPT na magsulat sa buong mga pangungusap sa halip na gumamit ng mga bullet point. Nabuo ang mga tugon noong Pebrero 2023 gamit ang bersyon 3.5 ng ChatGPT. Inalis ang mga session pagkatapos ng bawat tanong upang maiwasan ang pagkiling.
Kung saan ang tanong sa pagsusulit ay nangangailangan ng sagot “tungkol sa isang partikular na bansa” o “tungkol sa isang partikular na diskarte sa kalusugan ng publiko”, ang tanong ay na-edit upang maging partikular, halimbawa “tungkol sa isang diskarte sa labis na katabaan sa kalusugan ng publiko”. Ito ay upang matiyak na ang sagot ay tiyak sa mga bansa at paksang saklaw ng pagsusulit.
Ang lahat ng 10-mark na tanong ay hindi kasama, dahil ang format ng tanong na ito ay itinigil noong 2018, at lahat ng tanong na may kasamang larawan o nangangailangan ng graphical na output ay inalis din, dahil hindi nagawang i-parse ng ChatGPT 3.5 ang mga larawan. Ang napakagaan na pag-edit ng istraktura ng pagpapakilala sa ilang mga tugon sa ChatGPT ay kinakailangan upang mapanatili ang pagkabulag dahil ang mga sagot ng ChatGPT ay madalas na sumusunod sa isang katulad na istraktura. Hindi ito nagsasangkot ng pag-edit sa mismong teksto at halos palaging kasama ang pag-alis ng mga tutuldok sa simula ng mga sagot. Ang American English ay pinalitan ng British English. Ang mga sagot sa ChatGPT ay ibinibigay online [15].
Ang mga tanong ay hiwalay na minarkahan ng dalawang aktibong tagasuri ng DFPH, gamit ang proseso ng pagmo-moderate ng pagsusulit ng DFPH upang sumang-ayon sa isang pangwakas na marka. Ang dalawang tagasuri na ito ay nagtatrabaho bilang isang pares sa mga tunay na upuan ng pagsusulit na ito. Bago ang Enero 2017, ang mga kandidato ay kinakailangang makakuha ng hindi bababa sa 50% upang makapasa sa isang tanong at hindi maaaring mabigo ng higit sa dalawang indibidwal na mga tanong, kaya ito ang mga pamantayang ginamit upang hatulan ang pagpasa/pagkabigo.
Binigyan ang mga tagasuri ng isang set ng mga blinded na sagot para sa apat na papel na may pinakamababang bilang ng mga hindi kasamang tanong: Enero 2017; Hunyo 2016; Enero 2016; at Hunyo 2014. 80% ng mga sagot ay nabuo ng ChatGPT at 20% ng mga sagot ay mula sa isang bangko ng mga pampublikong health registrar na naghahanda upang umupo sa pagsusulit sa DFPH. Hiniling sa mga tagasuri na ipahiwatig kung aling mga sagot ang pinaniniwalaan nilang nabuo ng ChatGPT at kung alin ang nagmula sa mga rehistro ng pampublikong kalusugan.
Limang registrar ng pampublikong kalusugan na naghahanda para sa pagsusulit sa DFPH, na nagtatrabaho nang magkapares, una nang nakapag-iisa na sinukat ang bilang ng mga insight na inaalok ng ChatGPT bawat sagot para sa buong pitong papel ng pagsusulit, pagkatapos ay nagsama-sama sa katamtamang mga marka. Gumamit ito ng binagong kahulugan ng insight batay sa gawa ni Kung et al. [8]na dapat matugunan ang sumusunod na tatlong pamantayan:
-
Nondefinitional: Hindi basta tumutukoy sa isang termino sa input na tanong.
-
Nonobvious: Nangangailangan ng pagbabawas o kaalaman sa labas ng input ng tanong.
-
Wasto: Ay naaayon sa kasanayan sa pampublikong kalusugan o tumpak ayon sa numero; pinapanatili ang direksyon.
Ang isang halimbawa ay ibinigay sa online na imbakan [15].
Ang parehong mga registrar ay nagtrabaho nang magkapares upang hatulan ang bawat tanong laban sa binagong taxonomy ng pag-aaral ni Bloom [16] (BRT) na tinatasa ang antas ng pagkatuto ay lumilitaw na ipinapakita ng ChatGPT sa mga sagot nito laban sa antas ng pagkatuto ng mga parehong registrar na hinuhusgahan na kinakailangan upang sagutin ang tanong nang naaangkop. Ang pagsasanay ay ibinigay upang mapabuti ang pagiging maaasahan ng interrater. Sinuri ng mga rehistro ang antas ng pag-aaral na kinakailangan upang sagutin muna ang mga tanong bago tasahin ang mga tugon sa ChatGPT upang maiwasan ang pagkiling sa pag-angkla [17].