Mereka juga merekrut mahasiswa sarjana BYU (termasuk putri Wood, Jessica) untuk memberi umpan 2.268 pertanyaan bank tes buku teks lainnya ke ChatGPT.
Soal-soalnya meliputi sistem informasi akuntansi (SIA), audit, akuntansi keuangan, akuntansi manajerial dan pajak, dan bervariasi dalam kesulitan dan jenis (benar/salah, pilihan ganda, jawaban singkat, dan lain-lain).
Meskipun kinerja ChatGPT sangat mengesankan, para siswa tampil lebih baik. Siswa mencetak rata-rata keseluruhan 76,7%, dibandingkan dengan skor ChatGPT sebesar 47,4%. Pada 11,3% pertanyaan, ChatGPT mendapatkan skor lebih tinggi dari rata-rata siswa, terutama dalam AIS dan audit.
Tetapi bot AI lebih buruk dalam penilaian pajak, keuangan, dan manajerial, mungkin karena ChatGPT berjuang dengan proses matematika yang diperlukan untuk jenis yang terakhir.
Dalam hal jenis pertanyaan, ChatGPT lebih baik dalam pertanyaan benar/salah (68,7% benar) dan pertanyaan pilihan ganda (59,5%), tetapi kesulitan dengan pertanyaan jawaban singkat (antara 28,7% dan 39,1%).
Secara umum, pertanyaan tingkat tinggi lebih sulit dijawab oleh ChatGPT. Faktanya, terkadang ChatGPT akan memberikan deskripsi tertulis resmi untuk jawaban yang salah, atau menjawab pertanyaan yang sama dengan cara yang berbeda.
“Itu tidak sempurna; Anda tidak akan menggunakannya untuk semuanya,” kata Jessica Wood, yang saat ini menjadi mahasiswa baru di BYU. “Mencoba belajar hanya dengan menggunakan ChatGPT adalah tugas yang bodoh.”
Para peneliti juga menemukan beberapa tren menarik lainnya melalui penelitian ini, termasuk:
ChatGPT tidak selalu mengenali saat mengerjakan matematika dan membuat kesalahan yang tidak masuk akal seperti menambahkan dua angka dalam soal pengurangan, atau membagi angka dengan salah.
ChatGPT sering memberikan penjelasan atas jawabannya, meskipun jawabannya salah. Di lain waktu, deskripsi ChatGPT akurat, tetapi kemudian akan dilanjutkan dengan memilih jawaban pilihan ganda yang salah.
Baca Juga: Mengapa Media Sosial Berpengaruh Buruk pada Mental Orang Indonesia?