Sa nakalipas na dekada, ang teknolohiya ng artificial intelligence (AI) ay sumailalim sa isang mabilis na ebolusyon, na nakamit ang mga kapansin-pansing tagumpay sa maraming larangan [1, 2]. Kamakailan lamang, ang isang tagumpay na nakakuha ng malaking pansin ay ang ChatGPT [3], isang AI chatbot na pinapagana ng generative pre-trained transformer (GPT) architecture, partikular ang GPT-3.5 na may 175 bilyong parameter. Ang makabagong teknolohiyang ito ay binuo sa pamamagitan ng human feedback reinforcement learning at sinanay sa malawak na textual data. Kapansin-pansin, ang ChatGPT ay nagpapakita ng mga kahanga-hangang kakayahan sa iba’t ibang gawain, kabilang ngunit hindi limitado sa matalinong pag-uusap. [4]pagsagot sa tanong ng kaalaman [5]at pagbuo ng teksto [6]sa gayon ay nagpapakita ng hindi pa nagagawang potensyal para sa karagdagang pag-unlad.
Sa larangang medikal, lumalago ang interes sa paggalugad ng malalaking modelo ng wika para sa mga gawain tulad ng biomedical na pagsagot sa tanong (BioGPT [7]), at awtomatikong pagbuo ng diyalogo (DialoGPT [8, 9]). Nakalulungkot, ang mga pag-aaral na ito sa ngayon ay nagpakita ng limitadong praktikal na utility sa klinikal na kasanayan. Gayunpaman, ang ChatGPT, na may makapangyarihang pag-unawa sa wika at mga kakayahan sa pagbuo, ay nagpapakita ng makabuluhang potensyal sa mga larangan ng pagbuo ng klinikal na pagtugon [5, 6]suporta sa klinikal na desisyon [4, 10, 11]edukasyong medikal [12, 13]pagkuha ng impormasyon sa panitikan [14]siyentipikong pagsulat [15,16,17,18], at higit pa. Ang mga kamakailang pag-aaral ay nagpakita na ang ChatGPT ay makakapasa sa United States Medical Licensing Exam (USMLE) [19, 20]Radiology Board-style na Pagsusuri [21]UK Neurology Specialty Certificate Examination [22]at Plastic Surgery In-Service Exam [23], na may mga resultang maihahambing sa mga resulta ng mga eksperto ng tao. Gayunpaman, ang ibang mga pag-aaral ay nagpahiwatig din na ang ChatGPT ay nabigo na makapasa sa Family Medicine Board Exam [24]at Pagsusuri sa Kwalipikasyon ng Parmasyutiko [25]. Kabilang sa mga posibleng paliwanag para sa pagkakaiba sa pagganap na ito ang mga pagkakaiba sa wika at kultura, mga pagkakaiba-iba sa nilalaman ng pagsusuri [26]. Itinampok ng mga pag-aaral na ito ang kakayahan ng ChatGPT na maunawaan ang masalimuot na wika na ginagamit sa mga medikal na konteksto at ang potensyal nito para magamit sa medikal na edukasyon. Gayunpaman, ang mga kasalukuyang pananaliksik ay limitado sa dalawang aspeto. Una, higit na nakatuon ito sa wikang Ingles, at pangalawa, higit na binibigyang-diin nito ang pagsusuri ng manggagamot. Ang karagdagang pagsisiyasat ay kinakailangan upang tuklasin ang potensyal ng ChatGPT sa iba pang mga wikang hindi Ingles at iba’t ibang medikal na eksaminasyon, na maaaring maghatid ng malaking benepisyo para sa pinalawak na aplikasyon nito sa medikal na domain.
Ang Tsina, na may populasyon na higit sa 1.4 bilyon, ay nahaharap sa isang malaking medikal na pasanin. Ang pagbibigay ng mga serbisyo sa pangangalagang pangkalusugan ay nagsasangkot ng pagtutulungang pagsisikap ng mga manggagamot, parmasyutiko, at nars na masigasig na nagtatrabaho upang mag-alok ng pinakamahusay na posibleng pangangalaga sa mga pasyente. Ang mga doktor ay may pananagutan sa pag-diagnose at pagpapagamot ng mga sakit, tinitiyak ng mga parmasyutiko na ang naaangkop na gamot ay ibinibigay at pinangangasiwaan ng tama, habang ang mga nars ay dumadalo sa pang-araw-araw na pamamahala sa medikal at serbisyo ng pangangalaga ng mga pasyente. Dahil sa limitadong mga mapagkukunang medikal, ang mga medikal na propesyonal sa China ay nahaharap sa matinding pressure, ngunit nananatiling nakatuon sa pagbibigay ng mga serbisyong may mataas na kalidad. Ang pagdating ng ChatGPT ay nag-aalok ng isang maaasahang solusyon upang mapagaan ang pasanin na ito sa pamamagitan ng paghahatid ng matalino, mahusay, at tumpak na serbisyong medikal sa mga manggagamot, parmasyutiko, at nars.
Ang mga medikal na eksaminasyon, kabilang ang Chinese National Medical Licensing Examination (NMLE), ang Chinese National Pharmacist Licensing Examination (NPLE), at ang Chinese National Nurse Licensing Examination (NNLE) ay ipinapatupad ng gobyerno upang mapabuti ang mga propesyonal na pamantayan, matiyak ang kaligtasang medikal at mapahusay ang pangangalagang pangkalusugan. kalidad ng mga serbisyo [27]. Sa NMLE, mayroong 4 na yunit, ang bawat yunit ay naglalaman ng 150 katanungan, na nagiging kabuuang 600 katanungan. Dinisenyo ang NMLE na may 4 na module, kabilang ang Basic Medical Sciences, Medical Humanities, Clinical Medicine, at Preventive Medicine. Mahalagang tandaan na ang mga tanong sa loob ng bawat module ay random na ipinamamahagi sa iba’t ibang unit, at ang bilang ng mga tanong na nakatutok sa bawat module ay hindi naayos. Sa NPLE, mayroong 4 na yunit, bawat yunit ay may 120 katanungan, na naging kabuuang 480 katanungan. Nakatuon ang 4 na unit sa 4 na partikular na module, katulad ng Pharmaceutical Knowledge I, Pharmaceutical Knowledge II, Pharmaceutical Management and Regulations, at Comprehensive Pharmacy Knowledge and Skills. Sa NNLE, mayroong 2 units, bawat unit ay may 120 katanungan, na nagiging kabuuang 240 katanungan. Ang Unit 1 ay nakatuon sa klinikal na kaalaman at ang unit 2 ay nakatuon sa mga klinikal na kasanayan. Sa pamamagitan ng mga medikal na eksaminasyong ito, ang kaalamang medikal, mga klinikal na kasanayan, at mga pamantayang etikal na pinagkadalubhasaan ng mga medikal na kawani ay maaaring makabuluhang mapabuti ang kalidad ng kanilang mga serbisyo. Ito, sa turn, ay maaaring mabawasan ang saklaw ng mga medikal na pagkakamali at aksidente, at protektahan ang pangunahing karapatan sa kalusugan at kaligtasan ng mga pasyente.
Ang mga medikal na eksaminasyon sa paglilisensya ay naglalayong komprehensibong suriin ang kaalaman ng kandidato sa medikal na agham, klinikal na pagsusuri, diagnosis ng sakit, surgical treatment, prognosis ng pasyente, mga patakaran, at mga regulasyon, bukod sa iba pang mga lugar. Ang matagumpay na pagpasa sa mga pagsusuring ito ay isang kinakailangan para sa pagkuha ng propesyonal na sertipikasyon para sa mga doktor, parmasyutiko, at nars. Ang taunang bilang ng mga kumukuha ng pagsusulit ay mataas, habang ang mga matagumpay na kandidato ay nananatiling medyo mababa. Para sa NMLE, ayon sa opisyal na website at mga ulat ng balita, noong 2017, mayroong humigit-kumulang 530,000 test-takers, na sinundan ng humigit-kumulang 600,000 noong 2018, humigit-kumulang 540,000 noong 2019, humigit-kumulang 490,000 noong 2020, humigit-kumulang 530,020 sa 100,020. Ang NPLE, ayon sa data mula sa opisyal na website ng Certification Center para sa Licensed Pharmacist ng NMPA, noong 2017, ang bilang ng mga test-takers ay 523,296, na may pass rate na 29.19%. Noong 2018, mayroong 566,613 test-takers, na may 79,900 matagumpay na kandidato at isang pass rate na 14.10%. Noong 2019, mayroong 133,000 matagumpay na kandidato, na nagresulta sa isang pass rate na 18.72%. Noong 2020, mayroong 610,132 test-takers, ngunit ang bilang ng mga matagumpay na kandidato ay hindi inilabas. Noong 2021, mayroong 450,973 test-takers, na may 80,840 matagumpay na kandidato at isang pass rate na 17.93%. Noong 2022, mayroong 495,419 test-takers, na may 97,400 matagumpay na kandidato at isang pass rate na 19.66%. Para sa NNLE, ang kabuuang bilang ng mga kumukuha ng pagsusulit bawat taon mula 2012 hanggang 2020 ay nasa pagitan ng humigit-kumulang 690,000 at 730,000, na may bilang ng mga matagumpay na kandidato mula sa humigit-kumulang 380,000 hanggang 420,000.
Sa pag-aaral na ito, nilalayon naming suriin ang dami ng pagganap ng ChatGPT sa tatlong uri ng pambansang eksaminasyong medikal sa China, katulad ng NMLE, NPLE at NNLE. Upang mapahusay ang pagiging maaasahan ng aming mga natuklasan, maingat naming nakolekta ang isang malaking corpus ng real-world na medikal na tanong-sagot na data mula sa mga pagsusuring isinagawa mula sa taong 2017 hanggang 2021. Nagsagawa rin kami ng isang paghahambing na pagsusuri ng pagganap ng iba’t ibang mga yunit. Para sa mga kaso kung saan nabuo ang mga maling tugon, humingi kami ng feedback mula sa mga eksperto sa domain at nagsagawa ng masusing pagtatasa at pagsusuri ng error. Ang aming pag-aaral ay nagbubunga ng mahahalagang insight para sa mga mananaliksik at developer upang mapabuti ang pagganap ng malalaking modelo ng wika sa medikal na domain.