GADGETS
Model AI baharu DeepSeek latih LLM tanpa beban GPU
DeepSeek melancarkan model DeepSeek-OCR yang memproses teks kompleks dalam bentuk imej dengan penggunaan token sehingga 20 kali lebih rendah. -Foto Amanz
MINGGU ini, Alibaba Cloud mengumumkan pengoptimasian latihan kecerdasan buatan (AI) yang mengurangkan penggunaan GPU NVIDIA sehingga 82%.
Ringkasan AI
Hari ini pula, DeepSeek melancarkan model DeepSeek-OCR yang berkemampuan memproses jumlah teks yang besar dan kompleks tetapi menggunakan token sehingga 20 kali ganda lebih kecil berbanding sebelum ini.
Dengan DeepSeek-OCR latihan model bahasa raya (LLM) yang lebih besar boleh dilakukan tanpa peningkatan kos perkomputeran pusat data AI. Ini dilakukan menerusi pemprosesan data dalam bentuk imej dan bukannya teks.
Penyelidik mendapati satu dokumen dalam bentuk gambar yang dimampatkan, jumlah token yang diperlukan untuk memprosesnya adalah lebih kecil berbanding dokumen yang sama dalam bentuk teks.
DeepSeek-OCR bukan sahaja boleh membaca teks tetapi juga carta, persamaan kimia, angka geometri mudah dan imej semula jadi.
Dalam kegunaan dunia sebenar, satu kad grafik A100-40G boleh menyokong penjanaan lebih daripada 200,000 halaman data latihan untuk model bahasa raya (LLM) dan model bahasa visual (LVM) setiap hari.
Menerusi pengumuman hari ini, ia menunjukkan China mempunyai paradigma berbeza dalam melakukan latihan model AI.
Di Barat penggunaan cip AI yang lebih berkuasa dan pantas diperlukan sementara China yang kini dihalang akses kepada cip yang lebih terkini, sistem latihan yang lebih cekap dibangunkan untuk melatih model menggunakan cip AI yang kurang berkuasa.
DeepSeek-OCR dilancarkan secara terbuka dengan ia boleh diakses menerusi Github dan HuggngFace hari ini. -Amanz
Ringkasan AI
- Alibaba Cloud berjaya mengurangkan penggunaan GPU NVIDIA sehingga 82% dalam latihan AI, menunjukkan peningkatan kecekapan kos dan tenaga.
- DeepSeek melancarkan model DeepSeek-OCR yang memproses teks kompleks dalam bentuk imej dengan penggunaan token sehingga 20 kali lebih rendah, membolehkan latihan LLM berskala besar tanpa peningkatan kos.
- Pendekatan ini mencerminkan strategi China yang membangunkan sistem latihan AI lebih cekap berikutan sekatan terhadap cip terkini, berbeza dengan pendekatan Barat yang bergantung kepada cip berkuasa tinggi.
Hari ini pula, DeepSeek melancarkan model DeepSeek-OCR yang berkemampuan memproses jumlah teks yang besar dan kompleks tetapi menggunakan token sehingga 20 kali ganda lebih kecil berbanding sebelum ini.
Dengan DeepSeek-OCR latihan model bahasa raya (LLM) yang lebih besar boleh dilakukan tanpa peningkatan kos perkomputeran pusat data AI. Ini dilakukan menerusi pemprosesan data dalam bentuk imej dan bukannya teks.
Penyelidik mendapati satu dokumen dalam bentuk gambar yang dimampatkan, jumlah token yang diperlukan untuk memprosesnya adalah lebih kecil berbanding dokumen yang sama dalam bentuk teks.
DeepSeek-OCR bukan sahaja boleh membaca teks tetapi juga carta, persamaan kimia, angka geometri mudah dan imej semula jadi.
Dalam kegunaan dunia sebenar, satu kad grafik A100-40G boleh menyokong penjanaan lebih daripada 200,000 halaman data latihan untuk model bahasa raya (LLM) dan model bahasa visual (LVM) setiap hari.
Menerusi pengumuman hari ini, ia menunjukkan China mempunyai paradigma berbeza dalam melakukan latihan model AI.
Di Barat penggunaan cip AI yang lebih berkuasa dan pantas diperlukan sementara China yang kini dihalang akses kepada cip yang lebih terkini, sistem latihan yang lebih cekap dibangunkan untuk melatih model menggunakan cip AI yang kurang berkuasa.
DeepSeek-OCR dilancarkan secara terbuka dengan ia boleh diakses menerusi Github dan HuggngFace hari ini. -Amanz