Context Engineering für Codebasen mit 500.000+ Zeilen. Damit KI-Agenten erst verstehen — und dann liefern. In Angular, .NET und Java.
GenAI funktioniert in Tutorials. In einer 500.000-Zeilen-Enterprise-Codebase mit impliziter Architektur, verschachtelten Dependencies und Legacy-Logik aus 15 Jahren fällt sie oft auseinander — weil der Kontext fehlt.
Die METR-Studie 2025 zeigt: Erfahrene Entwickler waren 19 % langsamer, wenn sie KI-Tools nutzten — sich selbst schätzten sie 20 % schneller ein. Eine Fehleinschätzung von 40 Prozentpunkten.
Das ist kein Tool-Problem. Das ist ein Context-Engineering-Problem.
Kein Kontext ist besser als falscher Kontext.
Kontextrott. Jede Interaktion bläht den Kontext: veraltete Pfade, tote Hypothesen, redundante Wiederholungen. Nach 15–20 Nachrichten fällt die Antwortqualität messbar ab — nicht wegen des Modells, sondern wegen des verschmutzten Kontexts.
Hoffnungs-Debugging. Der Agent liefert eine fehlerhafte Lösung, ihr reicht die Fehlermeldung zurück, er „repariert“ und bricht etwas anderes. Nach zehn Runden weiß niemand mehr, wo das eigentliche Problem lag — der Modus, in dem die METR-Zahlen entstehen.
Blinder Griff. Ohne explizite Steuerung sucht sich der Agent seine Dateien selbst. In großen Codebases greift er oft daneben: ähnlich benannte Dateien aus dem falschen Modul, ein veraltetes Interface, die alte Logging-Bibliothek.
Gegen jede Bruchstelle ein Pattern — aus der Arbeit mit realen Codebases, nicht aus Tutorials.
Handover-Kette statt Mega-Session. Jeder Task läuft in eigener Session und endet mit einem kurzen Log: Entscheidungen, Test-Evidenz, offene Punkte, Handover-Notiz an den Nächsten. Der Folgetask startet frisch und liest nur diesen Log, nicht die zweistündige Historie. Kontext bleibt klein, Review-Gate nach jedem Schritt, Fehler bleiben lokalisierbar.
Artefakt-First statt Prompt-Stuffing. Research und Exploration laufen in eigenen Sessions — QR-Code-Library, Card-Persistence, API-Interfaces, jedes Thema ein Markdown-Doc. Der Implementierungs-Agent bekommt keine langen Prompts, er liest die Artefakte. Reproduzierbar, tool-übergreifend, rückverfolgbar.
Runtime Instrumentation. Wenn ein Bug nach drei Runden noch steht, fehlt dem Agent keine Intelligenz, sondern Evidenz. Logs einbauen, Code ausführen, relevante Zeilen zurückspielen — Agenten mit Laufzeitdaten müssen nicht raten.
Das sind drei Patterns — drei von etwa einem Dutzend, mit denen ich Senior-Dev-Teams, Engineering-Leads und CTOs arbeite, damit KI in eurer realen Codebasis produktiv wird, nicht nur in der Demo.
Für Engineering Leader: AI-Readiness-Reviews, Team-Enablement, Migrations-Architektur. Für Senior Devs und Tech Leads: Hands-on-Workshops und Praxis-Sessions.
NF-Migration-Advisory. Context-Pipeline-Design. Architektur-Review eurer AI-Workflows. Interim Context-Engineering-Lead für Teams, die bei GenAI Tempo aufnehmen wollen.
Einstieg typisch: 1–2 Tage Diagnose-Scoping. Danach Mandat nach Bedarf, remote oder on-site.
Erstgespräch buchen1–2 Tage, hands-on, mit eurem Code. Keine Folien, kein Greenfield. Curriculum basiert auf dem Authority Paper: Vier-Säulen-Framework, Diagnose/Solve-Pattern, Session-Hygiene, PR-Review-Pipeline, Kill Policy.
Für Senior Devs und Tech Leads, die mehr wollen als Copilot-Autocomplete.
Erstgespräch buchenFür interne Enterprise-Teams als Kickoff oder Deep-Dive. Live-Demo in einer echten 500+-Komponenten-Codebase (SAP Spartacus). Paralleles Arbeiten mit Agenten-Worktrees, Skill-Pattern, Review-Gates.
Letzte offene Session: Ø 9.0/10 Weiterempfehlung. Aufzeichnung ansehen →
Als 2-Stunden-Deep-Dive buchbar mit Fokus Runtime Instrumentation, Context Retrieval vs. RAG, Skills vs. Hooks.
Erstgespräch buchenZusätzlich: SAP Spartacus (Open Source).
Parallel-Migration mit Agenten-Worktrees, Skill-Pattern und Review-Gates. Live-Demo in der Praxis-Session 2026-04-21.
Blog-Post auf dev.to15 Teams, 150 Entwickler in der Reichweite, Angular 17–19. Architektur-Design und Migration von Module Federation auf die Native-Federation-Linie — dieselbe Architektur, die ich heute im Advisory Board mitgestalte.
Annotations-Pipeline für automatisierte Fahrgast-Feedback-Klassifikation — Trainingsdaten-Infrastruktur, die heute GenAI-Klassifikatoren füttert. Stack: .NET 6, Blazor, Angular 13, Java Spring Boot, Kafka.
"[…] our team was participating in the development of a telematics application for Daimler Van, focusing on frontend engineering. Not only does Lutz have an incredible work ethic, but he is also extremely resilient and self-reliant. On top of that, he is always at the front of technology and can also bring this knowledge into the team."Matthias Niederhausen — SupplyOn · ehem. Team Lead bei Robotron (Daimler-Van-Telematik)
Weitere Recommendations in LinkedIn abrufbar; vollständige Liste auf Anfrage.
Mehr Tools machen das LLM nicht klüger. Sie machen es unzuverlässiger.
Von MAGIX 2007 über Daimler, Carl Zeiss, Deutsche Bahn und 50Hertz bis zu Siemens AG (2022–2025, Micro-Frontend-Migration über 15 Teams).
2025–2026: Context Engineering Lead bei Brokk AI — einem GenAI-Tool für Enterprise-Codebasen. Die Erkenntnisse aus dieser Zeit sind in das Paper „Agenten in Enterprise-Codebasen: Ein Operating Model“ geflossen und in die Methodik, mit der ich heute mit Kunden arbeite.
Seit 2026 Industry Advisor im Native Federation Advisory Board an der Seite von Ingenieuren aus BMW, Dutch Railways, DAZN, Santander und Sanitas.
Studium: Berlin University of Applied Sciences (BHT). Arbeitet aus Freital bei Dresden remote mit Teams in der DACH-Region und darüber hinaus.
Das vollständige Operating-Model-Paper lesenCopilot ist ein guter Autocomplete. Context Engineering ist etwas anderes: gezielt strukturieren, welcher Code an welchen Agenten geht und welche Architektur-Regeln die Agenten kennen. Das ist keine Tool-Frage, das ist Architektur-Arbeit.
Das ist der Startpunkt, nicht das Ausschlusskriterium. Ich arbeite ausschließlich in gewachsenen Enterprise-Codebasen. Siemens AG (15 Teams, Angular 17–19) und SAP Spartacus (500+ Komponenten) zeigen: Je größer und älter, desto mehr Hebel.
Kommt drauf an. Ich verkaufe kein Pauschal-Heilsversprechen. Der erste Call ist ein ehrliches Scoping: Was sind eure realen Probleme, was davon ist Context Engineering, was nicht — und wie groß wäre der Hebel realistisch.
Erstgespräch diese Woche möglich. Mandate starten typischerweise mit 1–2 Tagen Diagnose-Scoping, danach Entscheidung über Umfang.
30 Minuten. Setup, Reibungspunkte, nächste Schritte.
Danke — Nachricht ist angekommen.
Ich melde mich binnen 48 Stunden zurück.
Da ging etwas schief. Bitte direkt an hello@lutzleonhardt.de.
Oder direkt per Mail: hello@lutzleonhardt.de