Centraverse

Kembali ke beranda Centranews

Apple, Nvidia, dan Lainnya Kepergok Curi Konten YouTube untuk Latih AI

Avatar Muhammad Ferdiansyah

Beberapa perusahaan teknologi, beberapa di antaranya merupakan perusahaan teknologi besar, seperti Apple, Nvidia, dan Anthropic, kedapatan menggunakan konten hasil ‘curian’ untuk melatih model kecerdasan buatan mereka.

Investigasi yang dilakukan oleh WIRED dan Proof News mengungkap berbagai perusahaan teknologi melatih model kecerdasan buatan mereka dengan menggunakan kumpulan data yang diperoleh melalui perusahaan data-scraping pihak ketiga.

Perusahaan tersebut adalah EleutherAI, sebuah organisasi AI nirlaba yang menujukan hasil data mereka digunakan untuk keperluan ilmiah.

Curi Konten dari Berbagai Kanal YouTube

Investigasi tersebut mengungkap bahwa transkrip dari 173.536 video YouTube, yang berasal dari lebih dari 48.000 saluran, telah digunakan oleh perusahaan-perusahaan teknologi besar di Silicon Valley untuk melatih model AI mereka. Kumpulan data ini kabarnya diperoleh tanpa seizin Google.

Kumpulan data dengan nama “YouTube Subtitles” ini berisi transkrip video dari saluran YouTube seperti Khan Academy, MIT, dan Harvard. Set data ini juga mengambil video dari beberapa kreator konten ternama seperti MrBeast, PewDiePie, Jacksepticeye, dan MKBHD. Pembawa acara ternama seperti Stephen Colbert, John Oliver, dan Jimmy Kimmel pun juga tak luput dalam set data ini

Kumpulan data tersebut tidak memuat gambar maupun video, namun hanya berisi teks polos dari takarir video, yang kadang juga memuat terjemahan dalam beberapa bahasa seperti bahasa Jepang, Jerman, dan Arab.

Menggunakan Data Terbuka

Dalam makalah penelitian yang diterbitkan oleh EleutherAI, kumpulan data tersebut merupakan bagian dari kompilasi yang dirilis oleh organisasi nirlaba tersebut yang disebut Pile.

Pile tidak hanya mengambil konten YouTube, namun juga mengambil konten dari situs Parlemen Eropa, Wikipedia bahasa Inggris, dan kumpulan surel internal perusahaan energi Enron.

Sebagian besar kumpulan data Pile bebas diakses oleh siapa saja dengan daya komputasi yang memadai. Para akademisi dan pengembang independen, terutama di luar perusahaan teknologi raksasa dapat memanfaatkan dataset ini.

Sayangnya, perusahaan teknologi besar seperti Apple, Nvidia, Anthropic, dan Salesforce menggunakan Pile untuk melatih model kecerdasan buatan mereka. Perusahaan non-teknologi seperti Bloomberg dan Databricks juga kedapatan menggunakan Pile.

Apple misalnya, mereka menggunakan Pile untuk melatih OpenELM, sebuah model AI yang dirilis pada bulan April, beberapa minggu sebelum perusahaan tersebut mengumumkan Apple Intelligence.

Salesforce mengonfirmasi bahwa mereka menggunakan Pile untuk model AI mereka yang dirilis untuk keperluan akademis. Model AI mereka telah diunduh sebanyak 86.000 kali melalui situs Hugging Face.

Dalam dokumen mereka, Salesforce mendapati data yang terkandung dalam Pile memiliki beberapa umpatan, kata kasar, dan hinaan SARA dan orientasi seksual. Kemungkinan besar berasal dari video-video YouTube yang menjadi sumber data Pile.

Apple, Bloomberg, dan Databricks belum memberikan pernyataan resmi ketika diminta keterangan oleh WIRED. Sedangkan Nvidia menolak untuk menanggapi.

Dikecam Konten Kreator

Dave Wiskus, pendiri dan CEO Standard, jaringan para YouTuber dan kreator konten yang memiliki platform streaming Nebula, memberikan komentar mengenai insiden tersebut.

Wiskus menilai penggunaan karya kreator tanpa persetujuan mereka sebagai sebuah pencurian dan merupakan perilaku yang “tidak sopan”. Terutama banyak perusahaan yang mulai menggunakan AI generatif untuk menggantikan tenaga manusia.

“Apakah ini akan digunakan untuk mengeksploitasi dan merugikan para kreator? Ya, tentu saja,” kata Wiskus.

Marques Brownlee yang dikenal dengan nama MKBHD juga telah mengomentari insiden ini dalam video singkat yang diunggah ke kanal YouTube-nya pada Rabu (17/7) ini.

Dirinya menilai perusahaan seperti Apple bisa mengklaim mereka tidak bersalah karena menggunakan kumpulan data yang diperoleh secara ilegal, namun perusahaan-perusahaan tersebut harus mendapatkan sumber data yang lebih legal.

MKBHD juga mengungkap bahwa dirinya menggunakan jasa transkripsi manual untuk takarir di video-videonya, yang berarti perusahaan data-scraping tersebut mencuri lebih dari satu jenis konten secara ilegal di saat yang bersamaan.

Komentar

Bagaimana tanggapanmu?