OpenAI membuat ChatGPT : Caranya Gimana?
Dari artikel kedua mengenai cara kerja sebuah suatu large language model, ChatGPT dari OpenAI, kali ini kita akan mulai menjelajah ke bagian lebih vital. Bagaimana proses hingga hadir sebuah ChatGPT? Teknologi apa yang dipakai? Bagaimana alurnya? Kita pasti mulai bertanya-tanya betapa menariknya jika kita mengetahui rahasia dari pembuatan chatGPT, chatbot pintar. Jadi, artikel ini khusus dipersembahankan untukmu, para pencinta teknologi! Let’s jump!
Bagaimana ChatGPT dibuat?
Language model dari ChatGPT dibuat dengan melakukan natural language processing pada dataset text. Dataset text merupakan dataset (sekumpulan data) yang terdiri dari text (tulisan)dari berbagai sumber berupa website, buku, artikel dan lainnya. Data tersebut berakhir ditahun 2021 sehingga chatGPT tidak mengetahui fakta apapun yang baru tersedia setelah tahun 2021. Sebagai contoh, chatGPT tidak mengetahui mengenai invasi Russia ke Ukraine.

Untuk memberikan ChatGPT kemapuan dalam memberikan respon yang memiliki kesan natural, proses training dari chatGPT menggunakan kombinasi proses dari metode supervised learning dan reinforcement learning.
- Model pertama : Supervised Fine-Tuning (SFT). Model ini menggunakan dataset berupa pertanyaan dan jawaban yang dibuat langsung oleh manusia. Dengan demikian, model ini memiliki gambaran karakteristik dari respon manusia.
- Model kedua : Reward model. Dalam melatih Reward model, model SFT akan memberikan ouput berupa beberapa jawaban dari sebuah pertanyaan, Jawaban tersebut lalu akan diurutkan oleh seorang labeler dimulai dari jawaban terbaik hingga terburuk. Setelahnya, model akan mampu menilai kualitas dari respon yang diberikan oleh reinforcement learning model.
- Langkah terakhir adalah membuat model Proximal Policy Optimization (PPO) dengan memanfaat kedua model di atas. Berbeda dengan model sebelumnya, model ini dibuat dengan reinforcement learning. Sebagai titik mulai, model akan didasarkan pada model SFT sebelumnya. Jawaban dari model tersebut akan dievaluasi oleh reward model. Lalu, berdasarkan reward atau punishment yang diberikan oleh reward model, parameter dari PPO akan disesuaikan untuk mendapatkan response yang lebih optimal.

Hasil dari proses diatas menghasilkan sebuah model yang dapat memberikan sebuah respon percakapan seakan-akan pengguna sedang berdialog bersama manusia (natural). Namun karena reward model tidak dapat mengukur kefaktualan dari suatu respon, ChatGPT terkadang dapat memberikan suatu jawaban yang salah, tapi terlihat benar karena penggunaan kosakata yang terdengar meyakinkan.
Pendapat penulis ChatGPT sebenarnya suatu teknologi yang diciptakan dan menjadi bukti bahwa manusia berkembang setiap saatnya, dengan ide-ide terbaru dalam penyelesaian berbagai masalah. Namun dalam arah perkembangan ChatGPT ke depan, banyak hal yang perlu diperhatikan seperti dampaknya pada orisinalitas suatu karya, pengetahuan dari suatu individu, dan bagaimana respon terhadap beberapa pekerjaan yang disinyalir dapat digantikan seperti costumer service, penulis berita, dan lain sebagainya.
Penulis:
Ni Putu Karisma Dewi