Constitutional AI dan Janji Anthropic untuk Model yang Bisa Dipercaya

Anthropic merilis paper "Constitutional AI" akhir 2022, dan istilah itu sejak saat itu jadi salah satu cara paling sering disebut untuk training model yang lebih bisa dipercaya. Tapi banyak yang menyebutnya tanpa benar-benar tahu apa yang ada di dalam.

Di Global AI Expo 2026, Dario Amodei akan bicara langsung tentang ini di sesi pukul 10:00 hari pertama. Tulisan ini ringkasan singkat supaya Anda masuk sesi dengan konteks yang sudah ada.

Cara Tradisional: RLHF

Sebelum bahas Constitutional AI, perlu paham apa yang ia gantikan atau lengkapi. Sebagian besar model bahasa besar dilatih pakai dua tahap. Pertama, pre-training di teks internet skala besar. Kedua, fine-tuning pakai feedback manusia, yang biasa disebut RLHF (Reinforcement Learning from Human Feedback).

Cara kerja RLHF: ribuan pekerja manusia membandingkan dua respons model dan memilih mana yang lebih baik. Model belajar dari pilihan ini supaya output-nya lebih sesuai harapan manusia.

RLHF bekerja, tapi punya batasan. Kualitas model tergantung kualitas labeler. Bias labeler ikut masuk model. Untuk topik sensitif (kesehatan mental, politik, hukum), feedback manusia tidak konsisten antar pekerja. Skalabilitas juga jadi masalah, karena melatih model frontier butuh jutaan komparasi manusia.

Apa yang Berbeda dengan Constitutional AI

Constitutional AI menambah satu lapisan: aturan eksplisit. Anthropic menyebutnya "konstitusi", daftar prinsip yang model harus ikuti. Sebagian dari prinsip ini diambil dari sumber publik (Universal Declaration of Human Rights, terms of service Apple, prinsip Sparrow dari DeepMind), sebagian dirancang sendiri oleh Anthropic.

Cara melatihnya dua tahap. Tahap pertama, model menghasilkan respons, kemudian mengkritik respons itu sendiri pakai prinsip dari konstitusi, lalu merevisi. Ini menghasilkan dataset pasangan "respons asli vs respons revisi". Tahap kedua, model lain dilatih dengan dataset ini supaya secara default sudah bias ke respons yang sesuai konstitusi.

Hasilnya: model yang lebih konsisten di topik sulit, dengan jejak kerja yang lebih bisa dijelaskan. Kalau Claude menolak permintaan tertentu, Anthropic bisa menunjuk prinsip mana di konstitusi yang sedang dieksekusi.

Kenapa Penting untuk Enterprise

Buat tim yang membangun produk dengan AI, dua hal di Constitutional AI yang relevan secara praktis.

Pertama, predictability. Output Claude di topik sensitif (medis, legal, finansial) lebih konsisten antar sesi dibanding model RLHF-only. Ini penting kalau produk Anda butuh behavior yang sama di banyak konteks dan banyak user.

Kedua, customization. Anthropic membuka kemampuan untuk membuat "system prompt" yang berfungsi seperti konstitusi tambahan untuk use case spesifik. Tim hukum bisa menulis aturan yang ketat untuk produk legal mereka, tim medis untuk produk klinis. Konstitusi dasar Anthropic tetap berlaku, tapi Anda bisa menambah lapisan untuk domain Anda sendiri.

Kritik dan Batasan

Bukan berarti pendekatan ini sempurna. Beberapa kritik yang sering muncul.

Konstitusi yang dipakai bias ke nilai-nilai Barat dan AS. Anthropic mengakui ini di papernya. Untuk audience Indonesia, sebagian respons Claude di topik agama, keluarga, atau adat bisa terasa kaku karena konstitusinya tidak mempertimbangkan konteks lokal.

Kedua, mengukur efektivitas konstitusi sulit. Bagaimana cara membuktikan bahwa model benar-benar mengikuti prinsip, bukan hanya output yang kelihatannya mengikuti? Anthropic punya tim interpretability yang berusaha jawab ini, tapi pertanyaannya belum tuntas.

Ketiga, konstitusi bukan benteng absolut. Jailbreak masih mungkin. Anthropic bahkan punya program bug bounty untuk model exploit. Constitutional AI menggeser baseline ke arah yang lebih aman, bukan menutup semua pintu.

Yang Perlu Anda Tanyakan

Kalau Anda evaluasi vendor model untuk produk yang diatur regulasi (kesehatan, finansial, pemerintahan), pertanyaan paling produktif bukan "model Anda aman?". Pertanyaan yang lebih bagus: "apa basis aturan yang dipakai untuk training, dan bagaimana saya bisa menambah aturan saya sendiri?".

Kalau jawabannya hanya "kami pakai RLHF" tanpa transparansi soal labeler atau prinsip, Anda kemungkinan beli kucing dalam karung. Constitutional AI dan dokumentasi yang menyertainya membuat Anthropic relatif lebih transparan di area ini, dan ini salah satu alasan kenapa banyak tim regulated industry condong ke Claude.