18 maj 2026 · 4 min · — Tomasz Chmielarz
Istniejemy, bo większość agencyjnej pracy z AI to teatr
Dema, które wow-ują zarząd i padają na produkcji są standardem — i to jest luka, którą zakładaliśmy ncodelab, żeby wypełnić.

18 maj 2026 · 4 min · — Tomasz Chmielarz
Dema, które wow-ują zarząd i padają na produkcji są standardem — i to jest luka, którą zakładaliśmy ncodelab, żeby wypełnić.

Gdy ktoś mówi mi, że "właśnie wdrożył agenta AI", zadaję jedno pytanie: jaki jest score na ewalu? Dziewięć razy na dziesięć — długa cisza.
Ta cisza to cała luka.
Aktualny scenariusz wygląda tak: firma konsultingowa wygrywa retainer na zbudowanie agenta. Trzy tygodnie później — demo, które rozświetla Slacka. Procurement podpisuje sześciocyfrowy kontrakt. Dwanaście tygodni później agent trafia do produkcyjnego narzędzia, którego po stronie operatora nikt nie używa, bo — niespodzianka — w przypadkach, które się liczą, daje złe odpowiedzi, a zespół po cichu ominął go w obejściu.
Nikt nie buduje tego intencjonalnie. To po prostu droga najmniejszego oporu.
Demo jest pracą, bo demo podpisuje kontrakt. Wszystko, co dzieje się po demo — harness ewaluacyjny, integracja, dashboardy kosztu per call, plan rollbacku, cykl iteracji — jest nieefektowne. Nie zmieści się na slajdzie. Trudno to wycenić w stawkach agencyjnych. Więc się to ścina, potem pomija, w końcu zapomina.
A operator, który będzie z tym agentem musiał żyć, nigdy realnie nie miał głosu w tym, co znaczy "działa". Dostaje deploy i prośbę o walidację.
Trzy rzeczy. Żadna z nich nie jest błyskotliwa.
Eval to kontrakt. Zanim napiszemy choćby jeden prompt, siadamy z operatorem i budujemy zbiór 30–100 realnych przypadków. On je ocenia. Razem ustalamy, co znaczy "akceptowalne" jako liczba. Ta liczba to deliverable. Jeśli system jej nie trafia — nie deklarujemy sukcesu.
Integrujemy zanim generalizujemy. Wąski agent wpięty w jeden workflow z porządną obserwowalnością jest bardziej wartościowy niż elastyczny agent, któremu nikt nie ufa. Wybieramy jedno zadanie, dowozimy end-to-end, i dopiero potem pytamy: co dalej.
Zostajemy, aż metryka się ruszy. Większość agencji odchodzi, gdy plan projektu się kończy. My odchodzimy, gdy liczby się ustabilizują. Ta różnica decyduje, czy praca się kumuluje, czy rozpływa.
Pracujemy najlepiej z zespołami, które:
Nie pasujemy, jeśli potrzebujesz 50-slajdowej "strategii AI" albo chatbota na stronę. Od tego są inne agencje.
Powiedz, co nie działa. Dwa zdania wystarczą. Odpowiadamy w ciągu dwóch dni roboczych — albo tak, albo konkretnym przekierowaniem, albo pytaniem wartym Twojego czasu.
Wolimy zapracować na pierwsze case study niż je sfabrykować.