Apple telah menerbitkan makalah teknis merinci model yang dikembangkannya untuk mendukung Apple Intelligence, serangkaian fitur AI generatif yang akan hadir di iOS, macOS, dan iPadOS selama beberapa bulan ke depan.
Dalam makalah tersebut, Apple menolak tuduhan bahwa mereka mengambil pendekatan yang dipertanyakan secara etis dalam melatih beberapa modelnya, menegaskan kembali bahwa mereka tidak menggunakan data pengguna pribadi dan memanfaatkan kombinasi data yang tersedia untuk publik dan data berlisensi untuk Apple Intelligence.
“(Kumpulan) data pra-pelatihan terdiri dari … data yang telah kami lisensikan dari penerbit, kumpulan data yang tersedia untuk umum atau bersumber terbuka yang dikurasi, dan informasi yang tersedia untuk umum yang dijelajahi oleh perayap web kami, Applebot,” tulis Apple dalam makalah tersebut. “Mengingat fokus kami pada perlindungan privasi pengguna, kami mencatat bahwa tidak ada data pribadi pengguna Apple yang disertakan dalam campuran data tersebut.”
Pada bulan Juli, Proof News dilaporkan Apple menggunakan kumpulan data yang disebut The Pile, yang berisi subtitle dari ratusan ribu video YouTube, untuk melatih serangkaian model yang dirancang untuk pemrosesan di perangkat. Banyak kreator YouTube yang subtitle-nya tersapu dalam The Pile tidak menyadari dan tidak menyetujui hal ini; Apple kemudian merilis pernyataan yang mengatakan bahwa mereka tidak bermaksud menggunakan model tersebut untuk mendukung fitur AI apa pun dalam produknya.
Makalah teknis, yang mengungkap model yang pertama kali diungkapkan Apple di WWDC 2024 pada bulan Juni, yang disebut Apple Foundation Models (AFM), menekankan bahwa data pelatihan untuk model AFM bersumber dari cara yang “bertanggung jawab” — atau bertanggung jawab menurut definisi Apple, setidaknya.
Data pelatihan model AFM mencakup data web yang tersedia untuk umum serta data berlisensi dari penerbit yang tidak disebutkan namanya. Menurut The New York Times, Apple menghubungi beberapa penerbit menjelang akhir tahun 2023, termasuk NBC, Condé Nast, dan IAC, tentang kesepakatan multi-tahun senilai sedikitnya $50 juta untuk melatih model pada arsip berita penerbit. Model AFM Apple juga dilatih pada kode sumber terbuka yang dihosting di GitHub, khususnya kode Swift, Python, C, Objective-C, C++, JavaScript, Java, dan Go.
Melatih model pada kode tanpa izin, bahkan kode terbuka, adalah titik pertentangan di antara pengembang. Beberapa basis kode sumber terbuka tidak berlisensi atau tidak mengizinkan pelatihan AI dalam ketentuan penggunaannya, menurut beberapa pengembang. Namun Apple mengatakan bahwa mereka “menyaring lisensi” untuk kode guna mencoba menyertakan hanya repositori dengan batasan penggunaan minimal, seperti yang berada di bawah lisensi MIT, ISC, atau Apache.
Untuk meningkatkan keterampilan matematika model AFM, Apple secara khusus menyertakan pertanyaan dan jawaban matematika dari halaman web, forum matematika, blog, tutorial, dan seminar dalam set pelatihan, menurut laporan tersebut. Perusahaan tersebut juga memanfaatkan set data “berkualitas tinggi dan tersedia untuk umum” (yang tidak disebutkan dalam laporan tersebut) dengan “lisensi yang mengizinkan penggunaan untuk pelatihan … model,” yang difilter untuk menghapus informasi sensitif.
Secara keseluruhan, kumpulan data pelatihan untuk model AFM berjumlah sekitar 6,3 triliun token. (Token adalah potongan data kecil yang umumnya lebih mudah dicerna oleh model AI generatif.) Sebagai perbandingan, jumlah tersebut kurang dari setengah jumlah token — 15 triliun — yang digunakan Meta untuk melatih model pembangkit teks andalannya, Llama 3.1 405B.
Apple mengambil data tambahan, termasuk data dari umpan balik manusia dan data sintetis, untuk menyempurnakan model AFM dan mencoba mengurangi perilaku yang tidak diinginkan, seperti menyemburkan racun.
“Model kami dibuat dengan tujuan membantu pengguna melakukan aktivitas sehari-hari di seluruh produk Apple mereka,
dalam nilai-nilai inti Apple, dan berakar pada prinsip-prinsip AI yang bertanggung jawab di setiap tahap,” kata perusahaan itu.
Tidak ada bukti kuat atau wawasan yang mengejutkan dalam makalah tersebut — dan itu memang dirancang dengan cermat. Jarang sekali makalah seperti ini yang sangat terbuka, karena tekanan persaingan tetapi juga karena pengungkapan juga banyak yang dapat membuat perusahaan terjerat masalah hukum.
Beberapa perusahaan yang melatih model dengan mengikis data web publik menegaskan bahwa praktik mereka dilindungi oleh penggunaan wajar doktrin. Namun, ini adalah masalah yang masih banyak diperdebatkan dan menjadi subjek dari semakin banyaknya tuntutan hukum.
Apple mencatat dalam makalahnya bahwa mereka mengizinkan webmaster untuk memblokir perayapnya agar tidak mengambil data mereka. Namun, hal itu membuat kreator individu dalam kesulitan. Apa yang harus dilakukan seorang seniman jika, misalnya, portofolio mereka dihosting di situs yang menolak untuk memblokir pengambilan data Apple?
Pertarungan di ruang pengadilan akan menentukan nasib model AI generatif dan cara mereka dilatih. Namun, untuk saat ini, Apple mencoba memposisikan dirinya sebagai pemain yang beretika sambil menghindari pengawasan hukum yang tidak diinginkan.