Vibe Coding Pakai Bahasa Indonesia Ternyata 50% Lebih Boros

Siapa di sini yang tiap hari ngoding dibantu AI? Angkat tangan. Saya juga. Antigravity, Claude Code, kadang ChatGPT — kalau lagi mentok, diketik aja apa maunya, bahasa sehari-hari, si AI yang ngehasilin kode. Istilah kerennya sekarang “vibe coding.”

Tapi minggu lalu saya penasaran: ada bedanya nggak sih kalau ngetik prompt pakai bahasa Indonesia dibanding Inggris? Secara logika, sama aja — yang penting maksudnya nyampe. Tapi ternyata… nggak sama sekali.

Saya ambil 5 prompt coding yang sering dipakai sehari-hari, lalu ukur token-nya pakai tokenizer GPT-4 (cl100k_base). Hasilnya? Bikin mikir ulang kebiasaan ngetik prompt.

Hasil Tes: Bahasa Indonesia 45-50% Lebih Boros

Saya tes tiga skenario berbeda — dari prompt pendek sampai full vibe coding session. Ini hasilnya:

Skenario 1: Prompt Singkat

Prompt 1:
"Buatkan fungsi Python untuk validasi email dengan regex"
→ 16 token

"Write a Python function to validate email with regex"
→ 11 token

Informasi sama persis. Bahasa Indonesia 45% lebih boros.

Skenario 2: Refactoring Request

Prompt 2:
"Tolong refactor kode ini biar lebih clean, pisahkan
logic database dari business logic, tambahkan error handling"
→ 30 token

"Please refactor this code to be cleaner, separate
database logic from business logic, add error handling"
→ 20 token

50% lebih boros.

Skenario 3: Full Vibe Coding Session

Prompt 3:
"Saya punya API endpoint yang lambat. Query PostgreSQL pakai
JOIN 3 tabel, data 2 juta row. Bantu optimasi — kasih tau
index apa yang perlu ditambah, dan rewrite query-nya."
→ 54 token

"I have a slow API endpoint. PostgreSQL query with 3-table JOIN,
2 million rows. Help me optimize, indexes to add, rewrite query."
→ 36 token

50% lebih boros lagi. Konsisten di semua skenario.

Kenapa Bisa Begitu?

Jawabannya ada di cara kerja tokenizer. Model AI seperti GPT-4 dilatih dengan data internet yang mayoritas bahasa Inggris. Kata-kata seperti function, query, refactor muncul jutaan kali di data training — masing-masing punya token ID sendiri.

Nah, kata bahasa Indonesia? Tokenizer harus mecah-mecah. Buatkan jadi Bu + at + kan. Validasi jadi Val + id + asi. Tiap pecahan = 1 token. Hasilnya lebih banyak token untuk informasi yang sama.

Parahnya, ini bukan cuma soal token count. Context window juga cepat penuh. Prompt bahasa Indonesia ngisi context 50% lebih cepat. Begitu context window mentok, AI mulai “lupa” percakapan sebelumnya. Anda harus mengulang-ulang konteks, makin boros lagi. Death spiral.

Dampak ke Biaya: Simulasi Satu Bulan

Mari kita hitung skenario realistis. Anggap Anda daily user yang ngirim 20 prompt per hari, rata-rata 200 kata per prompt:

  • Bahasa Indonesia: ~5.200 token/hari → ~156.000 token/bulan
  • Bahasa Inggris: ~3.500 token/hari → ~105.000 token/bulan
  • Selisih: ~51.000 token ekstra per bulan

Kalau pakai API berbayar seperti GPT-4 ($0.03/1K token input), itu sekitar $1.53/bulan atau ~Rp 25.000/bulan. Kelihatannya kecil untuk satu orang. Tapi kalau tim developer 10 orang yang semua pakai vibe coding setiap hari? Itu ~Rp 250.000/bulan yang sebenarnya nggak perlu kebuang.

Yang lebih mengganggu: selain biaya, Anda juga “membuang” kapasitas context window. Prompt yang lebih panjang = ruang lebih sedikit untuk output kode = AI lebih cepat kehabisan memori percakapan.

Solusi Praktis (Sudah Saya Coba Sebulan)

Anda nggak harus jadi native English speaker. Cukup biasakan ngetik prompt coding pakai Inggris. Isi kepala tetap Indonesia — nggak ada yang ngelarang mikir pakai bahasa sendiri. Tapi begitu jari mulai ngetik di chat AI? English mode on.

Yang saya lakukan sekarang:

  • Comments di kode → Inggris
  • Function & variable names → Inggris
  • Prompt ke AI coding tools → Inggris
  • Ngobrol sama kolega → ya Indonesia lah, masa iya

Hasilnya setelah sebulan: lebih hemat token, context window lebih panjang, dan kode tetap jalan — nggak ada bedanya sama sekali dari sisi output. Bahkan sering lebih bagus karena model AI lebih “familiar” dengan prompt berbahasa Inggris.

BTW, kalau mau eksplorasi tools AI coding gratis yang worth it, saya sudah bahas lengkap di artikel ini. Dan kalau penasaran bagaimana AI agent mulai mengubah landscape developer, topik ini juga relevan buat dibaca.

Coba Sendiri — Ini Script-nya

Nggak percaya? Tes pakai prompt Anda sendiri:


import tiktoken

enc = tiktoken.get_encoding("cl100k_base")

prompts = [
    ("Buatkan REST API endpoint pakai FastAPI untuk CRUD user",
     "Create a REST API endpoint with FastAPI for user CRUD"),
    ("Kenapa query PostgreSQL saya lambat? Udah 2 juta row, udah pakai index",
     "Why is my PostgreSQL query slow? 2M rows, already indexed"),
    ("Refactor kode Angular ini, pisahin komponennya",
     "Refactor this Angular code, separate the components"),
    ("Tambah fitur pagination di endpoint list products",
     "Add pagination to the list products endpoint"),
    ("Implementasi JWT authentication dengan refresh token di Express.js",
     "Implement JWT authentication with refresh token in Express.js"),
]

print("=" * 60)
print(f"{'Prompt ID':<15} {'ID Tokens':>10} {'EN Tokens':>10} {'Overhead':>10}")
print("=" * 60)

total_id = 0
total_en = 0

for id_text, en_text in prompts:
    id_tok = len(enc.encode(id_text))
    en_tok = len(enc.encode(en_text))
    total_id += id_tok
    total_en += en_tok
    overhead = (id_tok/en_tok - 1) * 100
    print(f"{id_text[:30]:<15} {id_tok:>10} {en_tok:>10} {overhead:>9.0f}%")

print("=" * 60)
print(f"{'TOTAL':<15} {total_id:>10} {total_en:>10} {(total_id/total_en - 1)*100:>9.0f}%")

Angkanya mungkin lebih besar dari yang Anda kira. Selamat berhemat token.


Discover more from teknologi now

Subscribe to get the latest posts sent to your email.

Leave a Comment

Discover more from teknologi now

Subscribe now to keep reading and get access to the full archive.

Continue reading