Baru-baru ini, ChatGPT telah menjadi hot spot baru untuk AI, dengan Microsoft dan Google di Silicon Valley berinvestasi besar-besaran dalam teknologi semacam itu (Microsoft memiliki saham $10 miliar di OpenAI, perusahaan di belakang ChatGPT, dan Google baru-baru ini merilis model BARD-nya sendiri), sementara perusahaan teknologi Internet di China, yang diwakili oleh Baidu dan lainnya, juga mengindikasikan bahwa mereka sedang mengembangkan teknologi tersebut dan akan ditayangkan dalam waktu dekat. Di Cina, Baidu dan perusahaan teknologi Internet lainnya juga mengindikasikan bahwa mereka sedang mengembangkan teknologi semacam itu dan akan diluncurkan dalam waktu dekat.
Model generatif yang diwakili oleh ChatGPT memiliki fitur umum, yaitu menggunakan data masif untuk pra-pelatihan, dan sering dipasangkan dengan model bahasa yang lebih kuat. Fungsi utama dari model bahasa adalah untuk belajar dari korpus besar yang ada, dan setelah belajar, dapat memahami instruksi linguistik pengguna, atau lebih jauh lagi, menghasilkan output teks yang relevan sesuai dengan instruksi pengguna.
Model generatif dapat secara luas diklasifikasikan menjadi dua kategori, satu adalah model generatif berbasis bahasa dan yang lainnya adalah model generatif berbasis gambar. Model generatif berbasis bahasa diwakili oleh ChatGPT, yang model bahasanya tidak hanya dapat belajar memahami arti perintah pengguna (misalnya, "menulis puisi, dengan gaya Li Bai"), tetapi juga menghasilkan teks yang relevan berdasarkan pengguna perintah setelah pelatihan dengan data masif (dalam contoh di atas, menulis puisi dengan gaya Li Bai). puisi). Artinya, ChatGPT perlu memiliki model bahasa besar (LLM) yang memahami bahasa pengguna dan dapat menghasilkan keluaran bahasa berkualitas tinggi - misalnya, model tersebut harus memahami cara membuat puisi, cara membuat puisi dengan gaya Li Bai , dan seterusnya. Ini juga berarti bahwa model bahasa besar dalam AI generatif berbasis bahasa memerlukan sejumlah besar parameter untuk melakukan pembelajaran kompleks semacam ini dan mengingat begitu banyak informasi. ChatGPT, misalnya, memiliki 175 miliar parameter (ruang penyimpanan 700 GB jika angka floating point standar digunakan), yang menunjukkan seberapa "besar" model bahasanya.
Kelas model generatif lainnya adalah model pembuatan gambar yang diwakili oleh Diffusion, biasanya Dalle dari OpenAI, ImaGen dari Google, dan saat ini Stable Diffusion dari Runway AI yang paling populer. Model pembuatan seperti gambar ini juga menggunakan model bahasa untuk memahami perintah linguistik pengguna dan kemudian menghasilkan gambar berkualitas tinggi berdasarkan perintah tersebut. Tidak seperti model generatif berbasis bahasa, model bahasa yang digunakan di sini terutama menggunakan bahasa untuk memahami masukan pengguna tanpa menghasilkan keluaran bahasa, sehingga jumlah parameter bisa sangat kecil (dalam urutan beberapa ratus juta), sedangkan jumlah parameter untuk model difusi berbasis gambar relatif kecil, sekitar beberapa miliar secara keseluruhan, tetapi upaya komputasinya tidak kecil karena resolusi gambar atau video yang dihasilkan bisa sangat tinggi.
Model generatif dapat menghasilkan keluaran berkualitas tinggi yang belum pernah ada sebelumnya melalui pelatihan data masif, dan sudah ada sejumlah pasar aplikasi yang jelas, termasuk pencarian, bot dialog, pembuatan dan pengeditan gambar, dll. Lebih banyak aplikasi diharapkan di masa mendatang, yang juga menuntut chip terkait.
Kebutuhan chip untuk menghasilkan model kelas
Seperti disebutkan sebelumnya, ChatGPT mewakili model generatif yang perlu dipelajari dari sejumlah besar data pelatihan untuk mencapai hasil generatif berkualitas tinggi. Untuk mendukung pelatihan dan inferensi yang efisien, model generatif memiliki persyaratan sendiri untuk chip terkait.
Yang pertama adalah kebutuhan akan komputasi terdistribusi; jumlah parameter untuk model generatif bahasa seperti ChatGPT mencapai ratusan miliar, dan hampir tidak mungkin untuk menggunakan pelatihan dan inferensi komputer tunggal, tetapi banyak komputasi terdistribusi harus digunakan. Dalam komputasi terdistribusi, bandwidth interkoneksi data antara mesin dan chip komputasi untuk komputasi terdistribusi semacam itu (seperti RDMA) memiliki permintaan yang besar, karena seringkali hambatan tugas mungkin bukan pada komputasi, tetapi pada interkoneksi data di atas, terutama pada komputasi terdistribusi skala besar semacam ini, chip untuk dukungan efisien komputasi terdistribusi menjadi lebih kritis.
Berikutnya adalah kapasitas memori dan bandwidth. Meskipun pelatihan dan inferensi terdistribusi tidak dapat dihindari untuk model generatif berbasis bahasa, memori lokal dan bandwidth setiap chip akan sangat menentukan efisiensi eksekusi dari satu chip (karena setiap memori chip digunakan hingga batasnya). Untuk model generatif berbasis gambar, dimungkinkan untuk menempatkan model (sekitar 20GB) semuanya dalam memori chip, tetapi karena model generatif berbasis gambar berkembang lebih jauh di masa mendatang, kemungkinan kebutuhan memorinya juga akan meningkat lebih lanjut. . Dari perspektif ini, teknologi memori ultra-high-bandwidth yang diwakili oleh HBM akan menjadi pilihan yang tak terhindarkan untuk chip akselerator terkait, sedangkan model kelas generatif juga akan mempercepat memori HBM untuk lebih meningkatkan kapasitas dan bandwidth. Selain HBM, teknologi penyimpanan baru seperti CXL ditambah dengan pengoptimalan perangkat lunak juga akan berpotensi meningkatkan kapasitas dan kinerja penyimpanan lokal dalam aplikasi semacam itu dan diperkirakan akan lebih banyak diadopsi oleh industri dari munculnya model kelas generatif.
Akhirnya, komputasi, model kelas generatif berbasis bahasa dan berbasis gambar memiliki permintaan komputasi yang besar, dan model generatif berbasis gambar mungkin memiliki permintaan yang jauh lebih tinggi untuk kekuatan aritmatika karena mereka menghasilkan resolusi yang semakin tinggi dan bergerak menuju aplikasi video - saat ini model generatif gambar arus utama memiliki volume komputasi sekitar 20 TFlops, dan untuk gambar dan resolusi tinggi, 100-1000 TFLOPS permintaan aritmatika cenderung menjadi norma.
Singkatnya, kami percaya bahwa persyaratan model generatif untuk chip mencakup komputasi terdistribusi, penyimpanan, dan komputasi, yang dapat dikatakan melibatkan semua aspek desain chip, dan yang lebih penting, bagaimana menggabungkan semua persyaratan ini bersama-sama dengan cara yang masuk akal. untuk memastikan bahwa satu aspek tidak menjadi hambatan, yang juga akan menjadi masalah rekayasa sistem desain chip.
GPU dan chip AI baru, yang memiliki peluang lebih baik
Model generatif memiliki permintaan baru untuk chip. Siapa yang memiliki peluang lebih baik untuk menangkap permintaan dan pasar baru ini untuk GPU (diwakili oleh Nvidia dan AMD) dan chip AI baru (diwakili oleh Habana, GraphCore)?
Pertama, dari perspektif model generatif berbasis bahasa, vendor GPU yang saat ini memiliki tata letak lengkap dalam ekologi semacam ini lebih menguntungkan karena jumlah peserta yang sangat banyak dan kebutuhan akan dukungan komputasi terdistribusi yang baik. Ini adalah masalah rekayasa sistem yang memerlukan solusi perangkat lunak dan perangkat keras yang lengkap, dan dalam hal ini, Nvidia telah menggabungkan GPU-nya untuk meluncurkan solusi Triton, yang mendukung pelatihan terdistribusi dan inferensi terdistribusi, yang memungkinkan model dibagi menjadi beberapa bagian dan diproses. pada GPU yang berbeda, sehingga menyelesaikan masalah terlalu banyak parameter yang tidak dapat diakomodasi oleh memori utama dari satu GPU. Ini memecahkan masalah terlalu banyak parameter untuk satu memori utama GPU. Apakah Anda menggunakan Triton secara langsung atau melakukan pengembangan lebih lanjut berdasarkan Triton di masa mendatang, akan lebih mudah untuk memiliki GPU ekologis yang lengkap. Dari sudut pandang komputasi, karena komputasi utama model generasi berbasis bahasa adalah komputasi matriks, yang merupakan kekuatan GPU, chip AI yang baru tidak memiliki keunggulan yang jelas dibandingkan GPU dari sudut pandang ini.
Dari sudut pandang model pembangkitan berbasis gambar, jumlah parameter model tersebut juga besar tetapi satu hingga dua kali lipat lebih kecil dari model pembangkitan berbasis bahasa, selain perhitungannya masih akan digunakan dalam jumlah besar. jumlah perhitungan konvolusional, jadi aplikasi inferensi, jika Anda dapat melakukan pengoptimalan yang sangat baik, chip AI mungkin memiliki beberapa peluang. Di sini pengoptimalan mencakup penyimpanan on-chip dalam jumlah besar untuk mengakomodasi parameter dan hasil perhitungan menengah, untuk konvolusi dan dukungan operasi matriks yang efisien.
Secara umum, chip AI generasi saat ini dirancang untuk menargetkan model yang lebih kecil (jumlah parameter pada level miliaran, perhitungan pada level 1TOPS), sementara permintaan untuk model generatif masih relatif lebih besar daripada target desain awal. GPU dirancang agar lebih fleksibel dengan mengorbankan efisiensi, sedangkan chip AI dirancang untuk melakukan yang sebaliknya, mengejar efisiensi aplikasi target. Oleh karena itu, kami percaya bahwa GPU masih akan mendominasi akselerasi model generatif tersebut dalam satu atau dua tahun ke depan, tetapi karena desain model generatif menjadi lebih stabil dan desain chip AI memiliki waktu untuk mengejar iterasi model generatif, chip AI memiliki peluang untuk mengungguli GPU dalam ruang model generatif dari perspektif efisiensi.

