iGame

Studi Harvard Menemukan OpenAI o1 Melampaui Baseline Dokter

Mei 4, 2026

(AsiaGameHub) – Tim dari Harvard Medical School dan Beth Israel Deaconess Medical Center menguji model OpenAI melawan dokter dalam diagnosis medis, menggunakan kasus nyata dari ruang gawat darurat dan tugas klinis lainnya.

Mudah Diketahui

OpenAI o1 berhasil mendapatkan diagnosis yang tepat atau sangat mendekati diagnosis yang benar pada 67% kasus triase ER awal.
Dua dokter yang sedang menjalani tugas memberi skor masing-masing 55% dan 50% pada uji triase yang sama.
Para peneliti mengatakan bahwa rumah sakit masih membutuhkan uji coba pengobatan pasien nyata sebelum menggunakan AI untuk diagnosis berisiko tinggi.

Para Peneliti Menyatakan Penggunaan Nyata di ER Masih Perlu Diuji

Hasil terkuat muncul pada titik di mana dokter biasanya mendapatkan informasi terendah. Pada triase ER awal, OpenAI o1 memberikan diagnosis yang tepat atau sangat mendekati diagnosis yang benar pada 67% kasus. Satu dokter yang sedang menjalani tugas mencapai angka 55%, sementara yang lain mencapai 50%.

Para peneliti tidak menyajikan hasil ini sebagai tanda bahwa AI siap untuk mengoperasikan ruang gawat darurat. Sebaliknya, studi Science ini menyerukan “kebutuhan mendesak untuk uji coba prospektif guna mengevaluasi teknologi-teknologi ini dalam pengaturan perawatan pasien nyata.”

Peringatan tersebut penting karena uji coba dilakukan hanya berdasarkan rekaman teks. Tim peneliti menyoroti bahwa “studi-studi yang ada menunjukkan bahwa model fondasi saat ini lebih terbatas dalam penalaran atas masukan non-teks.” Dengan kata lain, grafik, pemindaian, gambar, pemeriksaan fisik, dan penilaian di tempat tidur masih menimbulkan masalah yang lebih sulit bagi alat diagnosis AI.

Studi ini menggunakan data dari 76 pasien dari ruang gawat darurat Beth Israel. OpenAI o1 dan 4o menerima detail catatan medis elektronik yang sama yang tersedia pada setiap titik diagnosis. Harvard Medical School menyatakan bahwa para peneliti tidak “memproses data secara apa pun,” sehingga model-model tersebut tidak menerima ringkasan yang telah dibersihkan atau bantuan tambahan.

Dua dokter yang sedang menjalani tugas lainnya kemudian menilai jawaban tanpa mengetahui mana jawaban yang berasal dari dokter manusia dan mana yang berasal dari AI.

Studi tersebut menyatakan:

“Pada setiap titik diagnostik, o1 entah melakukan kinerja yang jauh lebih baik atau setara dengan dua dokter yang sedang menjalani tugas dan 4o,”

Ia juga menambahkan bahwa kesenjangan itu terlihat paling jelas pada awal perawatan, di mana tekanan sangat tinggi dan informasinya masih minim:

“kesenjangan tersebut sangat terlihat pada titik diagnostik pertama (triase ER awal), di mana tersedianya informasi tentang pasien paling sedikit dan urgensi untuk membuat keputusan yang benar adalah paling tinggi.”

Arjun Manrai, yang memimpin laboratorium AI di Harvard Medical School dan membantu memimpin studi ini, mengatakan:

“Kami menguji model AI melawan hampir semua benchmark, dan ia melebihi model sebelumnya serta dasar dokter kami,”

Tetapi, akuntabilitas tetap menjadi masalah yang sulit. Adam Rodman, seorang dokter di Beth Israel dan salah satu penulis utama studi ini, berkomentar kepada Guardian bahwa saat ini tidak ada “kerangka formal untuk akuntabilitas” terkait diagnosis AI. Ia juga mengatakan bahwa pasien masih “menginginkan orang-orang untuk memandu mereka melalui keputusan hidup atau mati [dan] untuk memandu mereka melalui keputusan pengobatan yang menantang.”

Artikel ini disediakan oleh penyedia konten pihak ketiga. AsiaGameHub (https://asiagamehub.com/) tidak memberikan jaminan atau pernyataan apa pun terkait isinya.

Kategori: Berita Terkini, Pembaruan Umum

AsiaGameHub menyediakan layanan distribusi iGaming yang ditargetkan untuk perusahaan dan organisasi, dengan menghubungkan lebih dari 3.000 media premium di Asia dan lebih dari 80.000 influencer spesialis. Platform ini menjadi jembatan utama untuk distribusi konten iGaming, kasino, dan eSports di seluruh kawasan ASEAN.