Orang -orang menggunakan Super Mario untuk membandingkan AI sekarang

0 1 minute read

Pikiran Pokémon adalah tolok ukur yang sulit untuk AI? Satu kelompok peneliti berpendapat bahwa Super Mario Bros. bahkan lebih sulit.

Hao AI Lab, sebuah org riset di University of California San Diego, pada hari Jumat melemparkan AI ke dalam game Super Mario Bros langsung. Antropik Claude 3.7 melakukan yang terbaik, diikuti oleh Claude 3.5. Google Gemini 1.5 Pro dan openai GPT-4O berjuang.

Itu bukan versi yang sama dari Super Mario Bros. sebagai rilis asli tahun 1985, untuk lebih jelas. Gim ini berjalan dalam emulator dan diintegrasikan dengan kerangka kerja, GamingAgentuntuk memberikan kontrol AIS atas Mario.

Kredit gambar:Hao Lab

GamingAgent, yang dikembangkan Hao di rumah, memberi makan instruksi dasar AI, seperti, “Jika rintangan atau musuh dekat, bergerak/melompat ke kiri untuk menghindar” dan tangkapan layar dalam game. AI kemudian menghasilkan input dalam bentuk kode Python untuk mengontrol Mario.

Namun, Hao mengatakan bahwa permainan memaksa setiap model untuk “belajar” untuk merencanakan manuver yang kompleks dan mengembangkan strategi gameplay. Menariknya, lab menemukan bahwa apa yang disebut model penalaran seperti Openai o1yang “berpikir” melalui masalah selangkah demi selangkah untuk sampai pada solusi, berkinerja lebih buruk daripada model “tidak bereaksi”, meskipun umumnya lebih kuat pada sebagian besar tolok ukur.

Salah satu alasan utama model penalaran mengalami kesulitan bermain game real-time seperti ini adalah karena mereka membutuhkan waktu-detik, biasanya-untuk memutuskan tindakan, menurut para peneliti. Di Super Mario Bros., waktu adalah segalanya. Yang kedua dapat berarti perbedaan antara lompatan yang dibersihkan dengan aman dan jatuh ke kematian.

Game telah digunakan untuk membandingkan AI selama beberapa dekade. Tetapi Beberapa ahli telah mempertanyakan kebijaksanaan menggambar koneksi antara keterampilan game AI dan kemajuan teknologi. Berbeda dengan dunia nyata, permainan cenderung abstrak dan relatif sederhana, dan mereka memberikan jumlah data yang tak terbatas secara teoritis untuk melatih AI.

Tolok ukur game mencolok baru -baru ini menunjukkan apa yang Andrej Karpathy, seorang ilmuwan peneliti dan anggota pendiri di Openai, disebut “krisis evaluasi.”

“Saya tidak benar -benar tahu apa [AI] metrik untuk dilihat sekarang, ”tulisnya di a Posting di x. “Tldr reaksi saya adalah saya tidak benar -benar tahu seberapa baik model ini sekarang.”

Setidaknya kita bisa menonton AI bermain Mario.

Source

Edward Gunawan 8 hours ago

0 1 minute read