BM129: Inferencja modele LLM: Mniej kosztów, więcej mocy

Sep 25, 2024 · 1h 9m 18s

Description

Chcesz uruchomić modele LLM (np. Llama, Mistral czy Bielika) na własnych warunkach? W tym odcinku dowiesz się o sprzęcie, oprogramowaniu i trikach, które to ułatwią. Konkretna i praktyczna wiedza, która Ci się przyda.

Oglądaj na YouTube: https://youtu.be/_OKLzmaSmg0

🔔 Subskrybuj i włącz powiadomienia - Twoja droga do praktycznego ML zaczyna się od jednego kliknięcia: https://www.youtube.com/@DataWorkshop?sub_confirmation=1
👍 Zostaw like, bo więcej lajków = więcej praktycznych treści dla Ciebie!
💬 Co o tym myślisz? Zostaw komentarz! Masz pytanie? Zadaj je - chętnie odpowiem.
🤝 Poznajmy się lepiej! Zaproś mnie do swojej sieci na LinkedIn: https://www.linkedin.com/in/vladimiralekseichenko/
🔊 Zainicjuj rozmowę o ML w firmie, polecając ten podcast. Zainspiruj zespół do wdrażania ML!

Poruszam też wątek GPT-4o: czy to rewolucja, czy ewolucja? I dlaczego OpenAI w tym modelu postawiło na inferencję oraz jak to jest powiązane z "rozważaniem". Podaję analogię, aby pobudzić Twoją wyobraźnię :).

Do tego opowiadam jeszcze historię o Elon Musku, jak zorganizował serwerownię z 100 tysiącami kart H100 (+50 tysięcy) w około 4 miesiące, gdzie normalnie zajęłoby to co najmniej rok, i jakie napotkali wyzwania, poza samym zakupem kart GPU (wydał na nie ponad kilka miliardów dolarów). Dla porównania w Polsce na wszystkich uczelniach łącznie jest ok. 1 tys. H100.

Pracując nad tym odcinkiem zrobiłem mapę myśli, aby lepiej ustrektyryzwaoć wiedzę. Tu możesz je znaleźć. Łap! :) Można powiększać i klikać (część linków zostawiłem, chociaż przyznam, że to długi proces, ale uznałem, że może być wartościowy dla Ciebie).

🔥 https://mm.tt/app/map/3441826029?t=XESxGmZdR8

Pytania, na które znajdziesz odpowiedzi w tym odcinku:
- Czym jest inferencja modeli LLM i jakie są kluczowe wymagania sprzętowe do jej przeprowadzenia?
Jakie są dostępne opcje dostępu do mocy obliczeniowej potrzebnej do uruchamiania modeli AI i jakie są ich zalety oraz wady?
- Jakie są główne różnice między zamkniętymi a otwartymi modelami AI i którzy są kluczowi gracze w tej dziedzinie?
- Ile RAMu potrzebuje DUŻY model językowy i czy Twój komputer da radę?
- Ile GPU trzeba mieć aby uruchomić Llame 8B, 70B czy nawet 400B?
Jakie są najważniejsze parametry GPU i co one oznaczają w praktyce (tak po ludzku)?
- Czy NVIDIA to JEDYNY wybór dla sprzętu? Poznaj alternatywy!
- Czym jest kwantyzacja modeli LLM i jak wpływa na ich wydajność oraz precyzję?

Partnerem podcastu jest DataWorkshop.

Chcesz więcej? Zajrzyj do moich kursów online i ucz się ML i analizy danych w praktyce!
👉 DS/ML od podstaw - https://dataworkshop.eu/pl/practical-machine-learning
👉 Python - https://dataworkshop.eu/pl/intro-python
👉 Statystyka - https://dataworkshop.eu/statistics
👉 SQL - https://dataworkshop.eu/pl/sql
👉 Time Series - https://dataworkshop.eu/pl/time-series
👉 NLP - https://dataworkshop.eu/pl/nlp

🎧 Słuchaj BM wygodnie na Spotify, Apple Podcasts lub Google Podcasts:
📌 https://open.spotify.com/show/3ZUaHommHHZU6b4WJiyV2I
📌 https://podcasts.apple.com/us/podcast/biznes-myśli/id1215290277
📌 https://music.youtube.com/playlist?list=PLWOCRT27Z94XZzwcRI9-ExMyUXeBrF3W_

show less