Konzept-Report · Lernen mit einem KI-Tutor
Wie ein KI-Tutor über viele Sitzungen lehrt, warum sein Lern-Loop sauber bleibt statt zu degenerieren, und wie daraus eine Umgebung für tausende Lernende wird — als Konzept für eine Plattform, die Fragenbank und Antwort-Daten längst hat.
Einen KI-Tutor bauen ist heute leicht — die Demo funktioniert mit jedem starken Modell sofort. Die eigentliche Aufgabe ist ein Tutor, der über Monate und tausende Lernende nicht degeneriert. Das entscheidet nicht das Modell, sondern der Harness darum herum: ein Gedächtnis mit klaren Rollen und ein Lern-Loop, der gemessen statt angenommen zurückläuft. Genau daran scheitern die meisten Ansätze: Sie zeigen schöne Lektionen an, wissen aber nie, was wirklich saß.
Skaliert man das auf tausende Lernende, gilt eine zweite Regel: Fakten werden geteilt, Didaktik wird personalisiert. Und eine Plattform, die bereits eine kuratierte Fragenbank und Millionen beantwortete Fragen hat, bringt den schwersten Teil schon mit.
Beide teilen dieselbe Maschine: Mission verstehen → Zustand lesen → die genau richtige nächste Schwierigkeit bestimmen → eine kleine Lektion bauen → ausliefern. Der einzige, aber entscheidende Unterschied liegt am Rückweg: Kommt das Ergebnis des Lernenden gemessen zurück — oder wird es angenommen?
Lektion als schöne, statische Seite. Stark im Aufbau — aber der Rückkanal fehlt.
Gleiche Maschine — plus ein Rückkanal, der aus dem Anzeigen ein Messen macht.
Der Wert liegt nicht im Modell, sondern im Harness: persistentes Gedächtnis + gemessener statt angenommener Feedback-Loop.
Der Lernstand lebt nicht im Kopf des Modells (der bei jeder neuen Sitzung leer ist), sondern in Dateien. Jede Datei hat genau eine Aufgabe — eine Bedeutungsachse, ein Ort.
Warum das mehr ist als „schöne Notizen": die Lektionen sind absichtlich nach Lernwissenschaft gebaut.
Ein selbst-akkumulierendes Lern-System hat eine Gefahr: es kann anfangen, sich selbst zu füttern — und dann seine Fehler genauso zuverlässig kompoundieren wie sein Wissen. So sieht das konkret aus, wenn ein naiv gebauter Tutor verrottet:
| Was der Lernende erlebt | Was im naiven Bau passiert | Was ihn festhält |
|---|---|---|
| „Er erklärt mir zum dritten Mal, was längst sitzt." | Der Tutor nimmt an, was angekommen ist, statt es zu messen. | Messen statt Selbstauskunft — der Loop kalibriert auf echten Antworten. |
| „Ein ‚Fakt' in der Erklärung stimmt nicht." | Das Modell füllt Lücken aus dem eigenen Wissen. | Behauptung nur mit Quelle — Fakten nur referenziert aus kuratiertem Bestand. |
| „Sitzung 12 weiß nichts von Sitzung 11." | Der Kontext lebt im Chat-Verlauf — und verdampft mit ihm. | Append-only Gedächtnis — Records & Notizen statt Chat-Historie. |
| „Erst zu leicht, dann plötzlich zu schwer." | Die Schwierigkeit folgt dem Bauchgefühl des Modells. | ZPD aus echten Daten — nächste Schwierigkeit = f(gemessene Historie). |
Auffällig: keiner dieser vier Fixes lautet „besseres Modell". Alle vier sind Struktur um das Modell herum — deshalb altern naive Tutoren auch mit dem stärksten Modell, und deshalb ist der Harness der Hebel. Dahinter stehen sieben Mechaniken, die den Loop dauerhaft sauber halten. Keine davon ist Disziplin — alle sind Struktur:
Der Loop beginnt, sich selbst zu füttern — Records aus ungemessenen Annahmen, Lektionen aus Modellwissen statt Quellen, Duplikate statt Reuse. Dann kompoundiert das System seine Fehler genauso zuverlässig, wie es vorher sein Wissen kompoundiert hat. Jede der sieben Regeln zieht gegen genau diesen einen Punkt.
Weil sich die nächste Schwierigkeit (ZPD) dann an eingebildeter statt gemessener Kompetenz kalibriert — und die Kurve dem Lernenden davonläuft. Genau dafür existiert der „Ergebnis melden"-Rückkanal: er macht aus Fluency-Illusion einen gemessenen Stand (Regel 4).
Die naheliegende Frage „je Nutzer eine Umgebung pro Lektion, pro Thema oder nur einmal?" ist der falsche Schnitt — sie behandelt allen Zustand gleich. Richtig sortiert man nach der Frage: Wem gehört diese Wahrheit?
| Kategorie | Was es ist | Beispiele |
|---|---|---|
| geteilt · einmal Fakten-Autorität | Was für alle Lernenden identisch ist. Kuratiert, versioniert, geprüft. Der Agent liest es — er erfindet es nicht. | Quellen, Glossar, Fachwissen, geprüfte Content-Atome |
| pro Nutzer Lerner-Wahrheit | Was diesen einen Menschen ausmacht: sein Ziel, sein gemessener Fortschritt, seine Missverständnisse. | Mission, gemessene Ergebnisse, Fortschritts-Log |
| wegwerfbar Abgeleitetes Artefakt | Alles, was aus den ersten beiden jederzeit neu gebaut werden kann. Cache, keine Wahrheit. | Lektionen, persönliche Referenz-Blätter |
Jede Kategorie bekommt ihre eigene Schicht. Der Agent arbeitet in einer materialisierten Sitzungs-Ansicht (Schicht 3), die die geteilte Wahrheit (Schicht 1) referenziert statt kopiert und den Fortschritt (Schicht 2) misst.
Personalisiert wird die Didaktik (Auswahl, Reihenfolge, Schwierigkeit, Rahmung) — geteilt bleiben die Fakten. Alles Wertvolle ist jederzeit aus Schicht 1 + 2 neu baubar.
Nicht „pro Lektion" (zu fein) und nicht „einmal pro Nutzer für alles" (zu grob). Der Trick: Daten und Sitzung getrennt körnen.
| Schnitt | Was passiert | Urteil |
|---|---|---|
| Voller Workspace pro Lektion | Jede Lektion kennt die Historie nicht → falsche Schwierigkeit, Re-Teaching, Spaced Repetition unmöglich. Millionen Verzeichnisse, Kontext bei jeder Lektion neu. | zu fein |
| Alles in einen Topf | Agent muss alles laden, Fächer-Records vermischt → Schwierigkeits-Rechnung verrauscht. Handy + Laptop parallel = Schreibkonflikte. | zu grob |
| Daten: pro Nutzer × Konzept | Ein Event-Log pro Nutzer, gekeyt auf Konzept-IDs eines fachübergreifenden Graphen. Personalisierung exakt, Prärequisiten über Fächer hinweg. | richtig |
| Sitzung: pro Nutzer × Fach | Der materialisierte Workspace als Bedien-/Sitzungsgrenze — Cache, nicht Eigentum. Sauber isoliert, aus dem gemeinsamen Log gespeist. | richtig |
Beide Naiv-Ansätze übersehen dasselbe: bei geprüftem Medizin-Content ist nicht der Speicher-Schnitt das Risiko, sondern die Governance.
| Original (1 Lernender) | Skaliert (tausende) |
|---|---|
| Quellen pro Workspace | Zentrale, versionierte Quellen-Registry pro Fach, verantwortet von einem Fach-Review-Board. Für den Agent read-only; Lücken → Vorschlags-Queue. |
| Glossar pro Workspace | Geteilte Terminologie-Wahrheit, versioniert. Nutzer dürfen Eselsbrücken an Begriffs-IDs hängen, nie Begriffe umdefinieren. |
| Fortschritts-Log (Freitext) | Strukturierte Events (Konzept, Item, Version, Score, Zeit) — append-only. Freitext zusätzlich, das gemessene Rückgrat ist maschinenlesbar. |
| Nächste Schwierigkeit (ZPD) | Personalisiert wird Auswahl, Reihenfolge, Schwierigkeit, Rahmung — nicht die Fakten. Regel: Agent darf formulieren, nie faktisch erfinden. |
| Reuse-Bibliothek | Geteilte Komponenten pro Fach mit Promotions-Pipeline: gute agent-gebaute Bausteine werden nach Review hochgestuft. 10.000 Nutzer verbessern die Bibliothek füreinander. |
Weil niemand mehr weiß, wer welche Version gesehen hat — es gibt zehntausende leicht divergierte Kopien und keinen Rückrufmechanismus. Mit Referenz + Versions-Pin ist es eine Abfrage: alle Nutzer-Events zeigen auf die fehlerhafte Content-Version → gezielt benachrichtigen, korrigierte Version ausrollen.
Medizin lernen heißt zu großen Teilen kreuzen: Fragen beantworten, mit Spaced Repetition vertiefen. Eine Plattform mit kuratierter Fragenbank und Millionen beantworteten Fragen bringt damit den schwersten Teil des Systems schon mit — den Messkanal. Der Lern-Loop ist dort von Tag 1 geschlossen; jede Antwort landet ohnehin in der Datenbank.
Was die bestehende Plattform im Detail bereits kann, kennen wir nur von außen — gut möglich, dass Teile davon längst existieren. Diese Seite erklärt deshalb bewusst das Kernprinzip und zeigt, wie es dort funktionieren könnte. Die Markierung „vermutlich vorhanden / neu" ist eine Annahme aus der Außensicht, kein Audit — der erste gemeinsame Schritt wäre, sie gegen den echten Systemstand zu halten.
Die überraschende Antwort: nicht am Modell und nicht am Content. Beides ist da — oft mehr, als man von außen sieht.
Jedes einzelne Stück existiert oft schon — nur eben als getrennte Werkzeuge und als Daten, nicht als System: ein Agent erzeugt Fragen, einer prüft ihre Qualität, einer mappt das Curriculum, die Antwort-Daten liegen als Produkt-Statistik vor. Was fehlt, ist der eine Teil, den kein einzelnes Werkzeug besitzt: der geschlossene Kreislauf um den einzelnen Lernenden — ein sauber pro Person fortgeschriebener Lernstand auf einem fachübergreifenden Konzept-Graphen, auf den der Tutor bei jeder Sitzung handelt, statt nur Content zu zeigen.
Das ist kein KI-Fähigkeits-Problem, sondern ein Integrations- und Ownership-Problem. Genau deshalb kann ein Team mit viel KI-Kompetenz und vielen Agents trotzdem keinen guten Teach-Loop haben: jeder Agent optimiert einen Schritt, aber niemand besitzt den ganzen Kreis. Solange das so bleibt, hat man viele gute Einzelteile — aber keinen Loop, der für den Lernenden mit jeder Runde besser wird.
Alles andere — Fragenbank, Antwort-Daten, Spaced Repetition, Curriculum-Struktur — bleibt unangetastet. Die Anti-Mutations-Regeln aus Teil A und die Prinzipien aus Teil B gelten unverändert.
In der Medizin ist ein falsches Faktum kein UX-Bug, sondern ein Sicherheitsthema. Deshalb erfindet der Tutor nie Inhalte: jede Aussage ist auf reviewten Bestand referenziert, die Didaktik bleibt frei, die Fakten bleiben es nicht — der bestehende Autoren-/QA-Review ist genau die Instanz, die das absichert.
Ein Fach, eine Kohorte. Zuerst die „vermutlich vorhanden"-Annahmen gegen den echten Systemstand halten, dann: Mission-Onboarding + Tutor-Agent + Notizen auf der bestehenden Fragenbank dieses Fachs. Gemessen wird gegen eine Vergleichsgruppe ohne Tutor: Kreuz-Performance und Wiederkehr-Rate. Erst wenn das trägt, weitere Fächer — die Architektur ändert sich dabei nicht mehr, sie wiederholt sich nur.
Kuratierter Content — Fragen, Videos, Erklärungen — lässt sich kopieren und zunehmend von generischen KI-Modellen imitieren; er ist als Alleinstellung immer weniger wert. Ein pro Lernendem gemessener Loop dagegen entsteht nur auf der eigenen Plattform: die Kreuz-Historie, die daran kalibrierte Didaktik und die über Monate gewachsenen Tutor-Notizen gibt es nirgends sonst. Der Wert verschiebt sich vom austauschbaren Inhalt in die persönliche Lernbeziehung — je länger jemand im Loop lernt, desto besser passt sie auf ihn und desto schwerer ist er woanders nachzubauen.
A: Für einen Lernenden ist der Wert das Harness — persistentes Gedächtnis mit klaren Rollen plus ein gemessener statt angenommener Feedback-Loop; sieben Strukturregeln halten ihn sauber und unendlich wachstumsfähig.
B: Für tausende trennt man den Zustand nach Autorität in drei Schichten — geteilte Fakten, Fortschritt pro Nutzer, Sitzungs-Workspaces wegwerfbar. Personalisiert wird die Didaktik, geteilt bleiben die Fakten.
C: Auf einer Plattform mit Fragenbank und Kreuz-Daten sind Content und Messkanal schon da — was fehlt, ist nicht Content oder Modell, sondern der geschlossene Loop um den einzelnen Lernenden. Genau deshalb hat viel KI-Kompetenz allein noch keinen guten Teach-Loop ergeben: es ist ein Integrations-, kein Fähigkeits-Problem.