Dev Espresso #9 – Koszty AI, bezpieczeństwo i zwrot ku modelom lokalnym

Dev Espresso #9 – Koszty AI, bezpieczeństwo i zwrot ku modelom lokalnym

Dariusz Luber
Dariusz Luber
📺

Wolisz wideo?

Przejdź do sekcji wideo

Video i ten wpis uzupełniają się nawzajem, dlatego dla najlepszego efektu skorzystaj z obu źródeł 😊

Dla mnie jest już jasne jedno: AI przestaje być warstwą „asystenta”, a staje się warstwą infrastruktury. Nie chodzi już o to, kto wygeneruje ładniejszą odpowiedź w czacie. Chodzi o to, kto zbuduje systemy agentowe, które są jednocześnie skuteczne, bezpieczne i policzalne kosztowo.

Widzę w tym wyraźne przejście z epoki promptów do epoki operacji. Firmy jednocześnie walczą o suwerenność modelową, porządkują pamięć agentów, szukają przewagi w cyberbezpieczeństwie i zderzają się z fizycznym limitem skali np. energią.

TL;DR

  • Rynek przesuwa się od monolitycznych chatbotów do architektur agentowych z pamięcią, orkiestracją i kontrolą kosztu.
  • NVIDIA i Microsoft stawiają na własne modele i własny stack, bo w tej fazie AI niezależność technologiczna równa się przewaga biznesowa.
  • Lokalne modele wracają do gry: przeglądarka, system operacyjny i nowy sprzęt sprawiają, że AI coraz częściej staje się wbudowaną funkcją urządzenia, a nie wyłącznie usługą w chmurze.
  • Memory ops przestaje być dodatkiem do UX. Konsolidacja pamięci to fundament jakości długich workflow.
  • Najbardziej zaawansowane możliwości modeli w obszarze cyberbezpieczeństwa są jednocześnie cennym narzędziem obrony i poważnym ryzykiem nadużyć.
  • Regulacje i koszt energii zaczynają realnie wpływać na roadmapy produktów AI.

1. Bitwa gigantów: NVIDIA i Microsoft ogłaszają technologiczną niepodległość

Przez ostatnie dwa lata większość rynku działała w prostym układzie: kupujesz dostęp do cudzego modelu i budujesz produkt nad API. Dla mnie ten model właśnie pęka, bo najwięksi gracze nie chcą już być tylko klientami cudzych API - budują własne modele, własne środowiska uruchomieniowe i własną kontrolę kosztów.

NVIDIA Nemotron 3 Ultra: model do długich przebiegów agentowych

NVIDIA zaprezentowała Nemotron 3 Ultra jako model zaprojektowany nie do „ładnej rozmowy”, ale do długiego rozumowania i pracy w pętlach agentowych. Kluczowe parametry (550B parametrów, 55B aktywnych) oraz nacisk na bardzo duże okno kontekstowe sygnalizują strategiczny kierunek: model ma być silnikiem wieloetapowego wykonania, a nie tylko interfejsem konwersacyjnym.

Źródło: NVIDIA Developer Blog.

Microsoft MAI: kontrola nad modelem to kontrola nad marżą

Na Build 2026 Microsoft wyraźnie zasygnalizował, że chce zmniejszać zależność od zewnętrznych dostawców modeli. Rodzina MAI i nacisk na wydajność tokenową to nie tylko ruch technologiczny. To ruch finansowy i produktowy: własny model daje większą kontrolę nad kosztem inferencji, czasem odpowiedzi i tempem iteracji funkcji.

Źródło: Microsoft Build 2026 – keynote transcript.

AI staje się bardziej lokalne: Chrome i Microsoft pokazują, że nie wszystko musi przechodzić przez chmurę

To jeden z tych wątków, które łatwo przeoczyć, jeśli patrzy się wyłącznie na premiery wielkich modeli. A ja mam wrażenie, że właśnie najciekawsze rzeczy dzieją się dziś bliżej użytkownika.

Chrome rozwija wbudowane AI oparte na Gemini Nano, czyli modelu zarządzanym przez samą przeglądarkę. Model jest pobierany na urządzenie i może działać lokalnie, bez wysyłania treści do zewnętrznego API przy każdym użyciu. To ważny sygnał: przeglądarka przestaje być tylko oknem do chmury, a zaczyna pełnić rolę lekkiego środowiska uruchomieniowego dla lokalnego AI.

Źródła:

Microsoft poszedł podobnym tropem od strony systemu operacyjnego. Fluid dictation w Voice Access na Copilot+ PC działa na urządzeniu i wykorzystuje małe modele językowe do poprawiania interpunkcji, gramatyki i wypełniaczy w trakcie dyktowania. To pozornie „mała” funkcja, ale dobrze pokazuje kierunek zmian: lokalny model nie musi być dobry we wszystkim. Wystarczy, że robi jedną rzecz dobrze, szybko i z poszanowaniem prywatności.

Źródło: Fluid dictation | Microsoft Support.

I właśnie ten fragment rynku jest dziś, moim zdaniem, mocno niedoceniany. Najciekawsze zastosowania lokalnych modeli nie muszą wyglądać jak kolejny chatbot. Mogą po prostu stać się warstwą użytkową systemu: dyktowaniem, poprawianiem tekstu, filtrowaniem treści, lokalnym podsumowaniem, prostą klasyfikacją czy prywatnym wsparciem dla agenta działającego obok nas.

NVIDIA RTX Spark: to już nie tylko GPU, ale cały komputer pod lokalne AI

Drugim brakującym elementem tej układanki jest sprzęt. NVIDIA nie ogranicza się już do dostarczania kolejnych kart graficznych do pecetów z cudzym procesorem. RTX Spark to wejście w nową kategorię: pełny superchip do komputerów z Windows, zbudowany wspólnie z MediaTekiem.

Technicznie wygląda to jak bardzo wyraźna próba przeniesienia logiki „AI-first hardware” ze świata serwerów i Apple Silicon do komputerów osobistych:

  • do 20-rdzeniowego CPU,
  • GPU Blackwell RTX z 6144 rdzeniami CUDA,
  • do 1 petaflopa wydajności AI,
  • do 128 GB zunifikowanej pamięci.

To nie jest ciekawostka do benchmarków. To jest konkretna teza sprzętowa: komputer osobisty ma być gotowy do uruchamiania dużych modeli i agentów lokalnie, bez konieczności odbijania każdej akcji do chmury. Według NVIDII taki sprzęt ma wystarczyć do uruchamiania modeli klasy 120B z kontekstem rzędu 1 miliona tokenów, a Microsoft dokłada do tego warstwę bezpieczeństwa i OpenShell (uruchamianie modeli/agentów w odizolowanym środowisku) jako środowisko dla lokalnych agentów.

Źródła:

2. Gdy AI zaczyna „śnić”: dlaczego pamięć staje się warstwą krytyczną

Największy ukryty problem agentów nie leży dziś w „inteligencji punktowej”, tylko w tym, że z czasem rozsypuje się ich pamięć długoterminowa. Im dłuższy workflow, tym większe ryzyko:

  • sprzecznych notatek,
  • nieaktualnych faktów,
  • utraty kontekstu biznesowego między sesjami.

Stąd rosnące zainteresowanie rozwiązaniami takimi jak Auto Dream od Anthropic: cykliczną konsolidacją pamięci i porządkowaniem wiedzy poza aktywną sesją. Analogią jest sen REM: system nie tworzy nowej pracy, tylko porządkuje reprezentację wiedzy.

[Praca agenta] -> logi i artefakty sesji
  |
  v
[Faza konsolidacji] -> usuwanie sprzeczności
  |
  +-> normalizacja czasu i faktów
  +-> kompresja pamięci roboczej
  +-> aktualizacja wiedzy trwałej

Źródło: Auto Dream mechanics.

W praktyce oznacza to nową dyscyplinę inżynierską: memory ops. Z moich doświadczeń bez niej nawet dobry model z czasem zaczyna podejmować coraz słabsze decyzje.

3. Claude Mythos i Project Glasswing: cienka granica między tarczą a mieczem

Wokół modelu Claude Mythos pojawiła się narracja, która dobrze oddaje dzisiejszy stan branży: najbardziej zaawansowane możliwości modeli w obszarze cyberbezpieczeństwa są jednocześnie najbardziej pożądane i najbardziej niebezpieczne.

Jeżeli model potrafi szybciej wykrywać krytyczne luki, to może też szybciej wspierać działania ofensywne. Dlatego zamiast pełnej publicznej dostępności uruchamiane są programy dostępu kontrolowanego, jak Project Glasswing.

W materiałach i doniesieniach prasowych (m.in. Financial Times) przewijała się konkretna narracja: to właśnie Mythos miał być używany w scenariuszach o charakterze ofensywnym, a pełny dostęp do modelu nie trafiał do szerokiego rynku, tylko do ograniczonego grona w ramach Project Glasswing. To były informacje z obiegu medialnego, a nie pełna dokumentacja techniczna opublikowana publicznie.

Pojawiały się też doniesienia o wykorzystaniu takich zdolności przez podmioty państwowe, w tym wątki dotyczące współpracy z amerykańskimi instytucjami bezpieczeństwa. Dla mnie to sygnał, że wokół frontier models zaczyna się realny wyścig zbrojeń w cyberprzestrzeni: te same capability mogą wzmacniać obronę, ale mogą też skracać drogę do ataku.

Źródła:

To temat, który wymusza nową zasadę architektoniczną: dostęp do modeli o bardzo dużych możliwościach w cyberbezpieczeństwie powinien być zarządzany jak dostęp uprzywilejowany, a nie jak kolejna integracja do szybkiego dorzucenia do backlogu.

4. White papers, które realnie zmieniają praktykę

W ostatnich tygodniach pojawiły się prace, które mają bezpośrednie konsekwencje dla inżynierów budujących systemy AI.

Publikacja Co wnosi Dlaczego to ważne
Asymmetric Virtual Memory Paging for Hybrid Mamba-Transformer Inference Rozdzielenie pamięci KV i SSM na poziomie stronicowania Mniej OOM, większy throughput na realnym sprzęcie
Task Structure Reverses Layerwise State Encoding in Sequence Models Dowód, że struktura zadania może odwracać profil kodowania stanów Benchmark bez kontekstu zadania bywa mylący
Measuring Progress Toward AGI: A Cognitive Taxonomy Ramy kognitywne do oceny postępu Lepszy język do porównywania capability i ryzyk
AI Infrastructure in the Age of Sovereignty... Koncepcja suwerenności infrastrukturalnej Strategia compute to dziś element geopolityki

Źródła:

Szczególnie AVMP jest ważne operacyjnie: hybrydowe architektury Mamba+Transformer mają różne profile pamięciowe, więc traktowanie ich przez runtime w identyczny sposób prowadzi do marnowania zasobów. W dużym skrócie Mamba to alternatywa dla klasycznej atencji, zaprojektowana tak, żeby lepiej radzić sobie z długimi sekwencjami i robić to oszczędniej pod względem pamięci. Sama klasyczna atencja to mechanizm używany w Transformerach, który przy każdym kroku porównuje elementy całego kontekstu, żeby ustalić, na co model powinien zwrócić uwagę.

W praktyce chodzi o prostą różnicę: klasyczna atencja potrzebuje coraz więcej pamięci wraz ze wzrostem długości kontekstu, natomiast stan Mamby pozostaje dużo bardziej przewidywalny i nie rośnie w ten sam sposób.

Czyli im dłuższy dokument, rozmowa albo historia pracy agenta, tym bardziej Transformer „puchnie” pamięciowo, a Mamba zachowuje się stabilniej. I właśnie dlatego wrzucanie obu tych mechanizmów do jednego worka kończy się stratą pamięci i wydajności.

Bez asymetrycznego zarządzania pamięcią płacimy za niepotrzebny padding i tracimy przepustowość.

5. Regulacje i energia: dwa „niewidzialne” bottlenecki AI

Debata regulacyjna przestała być abstrakcją prawną. Decyzje rządowe zaczynają wpływać na to, jak i kiedy modele wchodzą do produkcji.

2 czerwca 2026 prezydent USA podpisał dekret, który nakazuje badanie cyberzagrożeń w modelach granicznych (covered frontier models). W praktyce było to szeroko interpretowane jako wymóg/oczekiwanie, by rząd dostawał dostęp do nowych modeli około 30 dni przed publiczną premierą. Warto dodać, że OpenAI publicznie zadeklarowało gotowość do takiego trybu wcześniejszego udostępniania modeli administracji. Równolegle branża mocno naciska na federalne uporządkowanie zasad - m.in. przez propozycje ustawowe w rodzaju „Great American AI Act”, które miałyby czasowo ograniczyć rozjazd między rygorystycznymi regulacjami stanowymi (np. Kalifornia, Kolorado) a regulacją federalną.

Źródła:

Równolegle dzieje się coś jeszcze bardziej przyziemnego: walka o energię. Przy rosnącym obciążeniu centrów danych dostępność i cena mocy zaczynają działać jak twardy limit rozwoju.

Przykład z Arizony jest bardzo wymowny: lokalny dostawca energii APS złożył wniosek o znaczące podwyższenie opłat dla najbardziej energochłonnych obciążeń centrów danych AI (w debacie pojawiała się skala rzędu 45%). Jeżeli tempo wzrostu zużycia energii przez obciążenia AI utrzyma się na poziomach dwucyfrowych rok do roku (w niektórych analizach pada okolica 15%), część inwestycji w nowe serwerownie może zostać przesunięta do innych stanów.

Źródło kontekstu: AI news analysis (June 5, 2026).

To właśnie tu spotykają się trzy światy: software, polityka i fizyka. Najlepszy model bez energii i bez zgód regulacyjnych pozostaje slajdem w prezentacji.

6. Co to oznacza dla architektury produktów AI

Najbliższe kwartały premiują nie „najgłośniejszy model”, tylko najlepszą architekturę wykonania. Ja od początku patrzę na to tak samo: różne modele różnie realizują różne zadania, więc trzeba je dobierać do roli, kosztu i kontekstu.

Bardziej realny wydaje się układ hybrydowy: model frontierowy bierze na siebie plan, trudniejsze decyzje i orkiestrację, a mniejsze modele, często także lokalne, realizują wykonanie tam, gdzie liczy się koszt, prywatność albo szybkość odpowiedzi.

W praktyce ja sam układam to sobie w trzech osiach:

  1. Model ops i orchestration.

Rozdziel role modeli: jeden odpowiada za plan i kontrolę jakości, inne za wyspecjalizowane wykonanie. To obniża koszt i poprawia stabilność. Jeśli zadanie jest dobrze rozpisane, lokalny albo mniejszy model często nie musi „być wybitny” - wystarczy, że potrafi sensownie i tanio wykonać konkretny krok.

  1. Memory ops.

Wprowadź polityki pamięci: co jest trwałe, co jest robocze, co i kiedy podlega konsolidacji. Bez tego agenci z czasem zaczynają działać coraz gorzej.

  1. Infra + FinOps + Energy awareness.

Mierz nie tylko jakość odpowiedzi, ale też koszt tokena, koszt inferencji i koszt energii jako jeden układ decyzyjny.

Właśnie dlatego lokalne modele przestają być hobby dla entuzjastów home labów. Rosnące ceny dostępu do modeli frontierowych, rozwój urządzeń z NPU i nowe platformy pokroju RTX Spark razem pchają rynek w stronę rozsądnej hybrydy. Nie chodzi o „koniec chmury”. Chodzi o to, żeby nie wysyłać do niej wszystkiego tylko dlatego, że do tej pory nie było sensownej alternatywy.

Podsumowanie

Dla mnie to jest początek epoki, w której AI jest jednocześnie technologią aplikacyjną, infrastrukturą krytyczną i tematem bezpieczeństwa narodowego. Dlatego prawdziwa przewaga nie rodzi się już na poziomie pojedynczego promptu.

Rodziny modeli, warstwa pamięci, regulacje i energetyka zaczynają tworzyć jeden system naczyń połączonych. Kto potrafi go zaprojektować i utrzymać w równowadze, ten wygra następną fazę AI.

Dodatkowe linki z podcastu


Ten wpis był pomocny? Postaw mi kawę, abym miał energię do tworzenia kolejnych treści.

Postaw mi kawę