18 maj 2026 · 4 min · — Tomasz Chmielarz

Istniejemy, bo większość agencyjnej pracy z AI to teatr

Dema, które wow-ują zarząd i padają na produkcji są standardem — i to jest luka, którą zakładaliśmy ncodelab, żeby wypełnić.

Widok z góry na warsztatowe biurko z ręcznym szkicem architektury agenta i indygowym markerem.

Gdy ktoś mówi mi, że "właśnie wdrożył agenta AI", zadaję jedno pytanie: jaki jest score na ewalu? Dziewięć razy na dziesięć — długa cisza.

Ta cisza to cała luka.

Domyślny stan agencyjnej pracy z AI w 2026

Aktualny scenariusz wygląda tak: firma konsultingowa wygrywa retainer na zbudowanie agenta. Trzy tygodnie później — demo, które rozświetla Slacka. Procurement podpisuje sześciocyfrowy kontrakt. Dwanaście tygodni później agent trafia do produkcyjnego narzędzia, którego po stronie operatora nikt nie używa, bo — niespodzianka — w przypadkach, które się liczą, daje złe odpowiedzi, a zespół po cichu ominął go w obejściu.

Nikt nie buduje tego intencjonalnie. To po prostu droga najmniejszego oporu.

Demo jest pracą, bo demo podpisuje kontrakt. Wszystko, co dzieje się po demo — harness ewaluacyjny, integracja, dashboardy kosztu per call, plan rollbacku, cykl iteracji — jest nieefektowne. Nie zmieści się na slajdzie. Trudno to wycenić w stawkach agencyjnych. Więc się to ścina, potem pomija, w końcu zapomina.

A operator, który będzie z tym agentem musiał żyć, nigdy realnie nie miał głosu w tym, co znaczy "działa". Dostaje deploy i prośbę o walidację.

Co robimy inaczej

Trzy rzeczy. Żadna z nich nie jest błyskotliwa.

Eval to kontrakt. Zanim napiszemy choćby jeden prompt, siadamy z operatorem i budujemy zbiór 30–100 realnych przypadków. On je ocenia. Razem ustalamy, co znaczy "akceptowalne" jako liczba. Ta liczba to deliverable. Jeśli system jej nie trafia — nie deklarujemy sukcesu.

Integrujemy zanim generalizujemy. Wąski agent wpięty w jeden workflow z porządną obserwowalnością jest bardziej wartościowy niż elastyczny agent, któremu nikt nie ufa. Wybieramy jedno zadanie, dowozimy end-to-end, i dopiero potem pytamy: co dalej.

Zostajemy, aż metryka się ruszy. Większość agencji odchodzi, gdy plan projektu się kończy. My odchodzimy, gdy liczby się ustabilizują. Ta różnica decyduje, czy praca się kumuluje, czy rozpływa.

Dla kogo to jest

Pracujemy najlepiej z zespołami, które:

Mają konkretny powtarzalny workflow z realnym właścicielem i mierzalnym efektem.
Potrafią zdefiniować "sukces" w kategoriach, które młodszy analityk mógłby zweryfikować ręcznie.
Chcą systemu, nie demo.

Nie pasujemy, jeśli potrzebujesz 50-slajdowej "strategii AI" albo chatbota na stronę. Od tego są inne agencje.

Jak zacząć

Powiedz, co nie działa. Dwa zdania wystarczą. Odpowiadamy w ciągu dwóch dni roboczych — albo tak, albo konkretnym przekierowaniem, albo pytaniem wartym Twojego czasu.

Wolimy zapracować na pierwsze case study niż je sfabrykować.