LongVU, AI model yang memahami video
Eko Susilo Harjo November 7, 2024

Memahami dan menganalisis video panjang telah menjadi tantangan signifikan dalam dunia kecerdasan buatan (AI). Hal ini terutama disebabkan oleh jumlah data yang besar dan sumber daya komputasi yang diperlukan untuk memproses konten video yang ekstensif. Model-model bahasa multimodal tradisional seringkali kesulitan untuk memproses video panjang karena keterbatasan panjang konteks yang dapat mereka tangani. Masalah ini semakin jelas saat kita berurusan dengan video berdurasi satu jam, yang memerlukan ratusan ribu token untuk merepresentasikan informasi visual—sering kali melebihi kapasitas memori perangkat keras yang canggih sekalipun. Akibatnya, model-model ini kesulitan memberikan pemahaman video yang konsisten dan komprehensif, yang membatasi aplikasi nyata mereka.
Peluncuran LongVU oleh Meta AI
Untuk mengatasi tantangan ini, Meta AI baru saja meluncurkan LongVU, sebuah model bahasa multimodal yang dirancang khusus untuk memahami video panjang dengan efisien. LongVU menggunakan mekanisme kompresi adaptif spatiotemporal yang canggih, yang secara cerdas mengurangi jumlah token video sambil mempertahankan detail visual yang penting. Dengan memanfaatkan kombinasi fitur DINOv2 dan kueri lintas-modal, LongVU secara efektif mengurangi redundansi spatial dan temporal dalam data video, sehingga memungkinkan pemrosesan urutan video panjang tanpa kehilangan informasi penting.
Metode Pengurangan Frame yang Selektif
LongVU menerapkan pendekatan pengurangan fitur frame selektif yang dipandu oleh kueri teks, serta memanfaatkan fitur self-supervised dari DINOv2 untuk menghilangkan frame yang tidak relevan. Metode ini memiliki keuntungan signifikan dibandingkan teknik sampling uniform tradisional, yang sering kali mengakibatkan hilangnya informasi penting dengan mengabaikan frame-frame kunci, atau menjadi tidak mungkin secara komputasi dengan mempertahankan terlalu banyak token. Hasilnya, LongVU dirancang dengan ringan, memungkinkan operasi yang efisien dan mencapai hasil terbaik pada benchmark pemahaman video.
Rincian Teknis dan Manfaat LongVU
Arsitektur LongVU menggabungkan fitur DINOv2 untuk ekstraksi frame, pengurangan fitur frame selektif melalui kueri lintas-modal yang dipandu teks, dan pengurangan token spatial berdasarkan ketergantungan temporal. Pertama-tama, tujuan kesamaan fitur DINOv2 digunakan untuk menghilangkan frame yang redundan, mengurangi jumlah token yang diperlukan. Selanjutnya, LongVU menerapkan kueri lintas-modal untuk memprioritaskan frame yang relevan dengan kueri teks yang diberikan. Untuk frame yang tersisa, mekanisme pooling spatial lebih lanjut mengurangi representasi token sambil mempertahankan detail visual yang paling penting.
Pendekatan ini memastikan kinerja tinggi bahkan saat memproses video berdurasi satu jam. Mekanisme pengurangan token spatial memastikan bahwa informasi spatial penting tetap terjaga sementara data yang tidak relevan dihilangkan. LongVU memproses input video yang disampling satu frame per detik (1fps), secara efektif mengurangi jumlah token per frame rata-rata menjadi dua, sehingga memungkinkan urutan video berdurasi satu jam untuk diproses dalam panjang konteks 8k—sebuah batasan umum untuk model-model bahasa multimodal.
Pentingnya dan Kinerja LongVU
LongVU merupakan terobosan signifikan dalam pemahaman video panjang dengan mengatasi masalah mendasar mengenai panjang konteks terbatas yang dihadapi sebagian besar model bahasa multimodal. Melalui kompresi spatiotemporal dan kueri lintas-modal yang efektif, LongVU mencapai hasil yang mengesankan pada benchmark pemahaman video utama. Misalnya, pada benchmark VideoMME, LongVU melampaui model baseline yang kuat, LLaVA-OneVision, dengan peningkatan akurasi sekitar 5%. Bahkan ketika dikurangi menjadi versi ringan menggunakan backbone bahasa Llama3.2-3B, LongVU menunjukkan peningkatan substansial, mencapai perbaikan sebesar 3.4% dibandingkan model-model terbaik sebelumnya dalam tugas video panjang.
Kekuatan LongVU semakin terlihat dalam hasilnya yang kompetitif melawan model-model proprietary seperti GPT-4V. Pada set evaluasi MVBench, LongVU tidak hanya mengurangi celah kinerja dengan GPT-4V, tetapi juga melampaui model tersebut dalam beberapa kasus, menunjukkan efektivitasnya dalam memahami input video yang terambil secara padat. Ini menjadikan LongVU sangat berharga untuk aplikasi yang memerlukan analisis video secara real-time, seperti pengawasan keamanan, analisis olahraga, dan alat pendidikan berbasis video.
Kesimpulan
LongVU dari Meta AI merupakan kemajuan besar dalam pemahaman video, terutama untuk konten panjang. Dengan menggunakan kompresi adaptif spatiotemporal, LongVU secara efektif mengatasi tantangan pemrosesan video dengan redundansi temporal dan spatial, memberikan solusi yang efisien untuk analisis video panjang. Kinerjanya yang unggul di berbagai benchmark menyoroti keunggulannya dibandingkan model-model bahasa multimodal tradisional, membuka jalan bagi aplikasi yang lebih canggih.
Dengan arsitektur yang ringan dan kompresi yang efisien, LongVU memperluas pemahaman video tingkat tinggi ke berbagai kasus penggunaan, termasuk lingkungan mobile dan sumber daya rendah. Dengan mengurangi biaya komputasi tanpa mengorbankan akurasi, LongVU menetapkan standar baru untuk model-model bahasa multimodal di masa depan.
Dengan kemampuan untuk menangani video panjang secara efektif, LongVU dapat menjadi alat penting bagi para pengembang, peneliti, dan profesional yang mencari solusi inovatif untuk tantangan analisis video saat ini. Di dunia yang semakin bergantung pada visual, pemahaman yang lebih baik terhadap video panjang dapat membuka peluang baru dalam berbagai bidang, dari hiburan hingga pendidikan.
Discover more from teknologi now
Subscribe to get the latest posts sent to your email.