Konzept-Report · Lernen mit einem KI-Tutor

Ein Lern-System, das nicht vergisst — und nicht mutiert.

Wie ein KI-Tutor über viele Sitzungen lehrt, warum sein Lern-Loop sauber bleibt statt zu degenerieren, und wie daraus eine Umgebung für tausende Lernende wird — als Konzept für eine Plattform, die Fragenbank und Antwort-Daten längst hat.

Stand: 4. Juli 2026
Der Kern

Kurz gesagt: Der Wert liegt im Loop, nicht im Modell.

Messen,
nicht raten.
Das Wichtigste zuerst

Einen KI-Tutor bauen ist heute leicht — die Demo funktioniert mit jedem starken Modell sofort. Die eigentliche Aufgabe ist ein Tutor, der über Monate und tausende Lernende nicht degeneriert. Das entscheidet nicht das Modell, sondern der Harness darum herum: ein Gedächtnis mit klaren Rollen und ein Lern-Loop, der gemessen statt angenommen zurückläuft. Genau daran scheitern die meisten Ansätze: Sie zeigen schöne Lektionen an, wissen aber nie, was wirklich saß.

Skaliert man das auf tausende Lernende, gilt eine zweite Regel: Fakten werden geteilt, Didaktik wird personalisiert. Und eine Plattform, die bereits eine kuratierte Fragenbank und Millionen beantwortete Fragen hat, bringt den schwersten Teil schon mit.

1 Loop
ist das ganze System — Mission → Stand lesen → Schwierigkeit wählen → kleine Lektion → üben → messen
Alles Weitere (Skalierung, Governance) ist nur die saubere Vervielfältigung dieses einen Kreislaufs.
7 Regeln
halten den Loop sauber — Struktur statt Disziplin
Gegen den einen Kollaps-Modus: dass das System anfängt, sich selbst zu füttern, und Fehler genauso zuverlässig kompoundiert wie Wissen.
fast alles
Bausteine sind da — Fragenbank, Kreuz-Daten, Curriculum-Mapping, Quiz-Agents
Deshalb ist der fehlende Teil weder Content noch Modell, sondern der geschlossene Loop pro Lernendem, der aus all dem lernt. Genau der ist bisher nirgends verankert.
3 Bausteine
sind neu zu bauen: Mission, Tutor-Agent, Tutor-Notizen
Bewusst klein starten: ein Fach, eine Kohorte, gegen Vergleichsgruppe messen.
Teil A · Ein Lernender — A1

Der Lern-Zyklus: Original vs. geschlossener Loop

Beide teilen dieselbe Maschine: Mission verstehen → Zustand lesen → die genau richtige nächste Schwierigkeit bestimmen → eine kleine Lektion bauen → ausliefern. Der einzige, aber entscheidende Unterschied liegt am Rückweg: Kommt das Ergebnis des Lernenden gemessen zurück — oder wird es angenommen?

Tutor-Prozess Persistenter Zustand Lernender aktiv

Original-Konzept offener Loop

Lektion als schöne, statische Seite. Stark im Aufbau — aber der Rückkanal fehlt.

Anker
① Mission
Warum lernt die Person das? Erdet jede Lektion.
Lesen
② Zustand einlesen
Learning-Records · Quellen · Glossar
Kalibrieren
③ Nächste Schwierigkeit (ZPD)
Genau so schwer, dass es fordert — nicht überfordert.
Bauen
④ Eine kleine Lektion
Wissen (aus zitierten Quellen) → Skill (Übung mit Feedback).
Liefern
⑤ Als schöne Seite anzeigen
Kurz, ein Win, zum Wiederkommen gemacht.
Tun
⑥ Lernender löst Quiz / Aufgabe
…im Browser.
⚠︎
Der Bruch im Loop Das Ergebnis bleibt im Browser. Der Tutor sieht es nicht — er muss annehmen, was gesessen hat, und den Learning-Record aus dem Bauch schreiben. Der Rückweg zu ③ ist manuell und ungemessen.

Unsere Variante geschlossener Loop

Gleiche Maschine — plus ein Rückkanal, der aus dem Anzeigen ein Messen macht.

Anker
① Mission
Warum lernt die Person das? Erdet jede Lektion.
Lesen
② Zustand einlesen
Learning-Records · Quellen · Glossar
Kalibrieren
③ Nächste Schwierigkeit (ZPD)
Aus gemessenem Vorwissen, nicht aus Vermutung.
Bauen
④ Eine kleine Lektion
Wissen (aus zitierten Quellen) → Skill (Übung mit Feedback).
Liefern
⑤ Als interaktives Widget
Quiz mit glasklarem richtig/falsch + „Ergebnis melden"-Knopf.
Tun
⑥ Lernender löst Quiz / Aufgabe
Klick auf „Ergebnis melden".
Der Loop schließt sich — automatisch Das Ergebnis fließt sofort zurück an den Tutor. Er schreibt den Learning-Record aus echten Daten (⑦) und kalibriert ③ neu. Anzeigen wird zu Messen.
Merksatz

Der Wert liegt nicht im Modell, sondern im Harness: persistentes Gedächtnis + gemessener statt angenommener Feedback-Loop.

Teil A · A2

Das Gedächtnis — warum es Sitzungen überlebt

Der Lernstand lebt nicht im Kopf des Modells (der bei jeder neuen Sitzung leer ist), sondern in Dateien. Jede Datei hat genau eine Aufgabe — eine Bedeutungsachse, ein Ort.

MISSION.md
Das Warum
Der Grund, warum gelernt wird. Jede Lektion hängt daran — ohne Mission werden Lektionen abstrakt und beliebig.
RESOURCES.md
Vertrauens-Anker
Kuratierte, hochwertige Quellen. Leitsatz: nie dem eigenen Modellwissen trauen — jede Behauptung wird zitiert.
learning-records/
Fortschritts-Log
Nummeriert, nur angehängt. Hält, was gesessen hat und was nicht — daraus wird die nächste Schwierigkeit berechnet.
GLOSSARY
Begriffs-Wahrheit
Einmal festgelegt, in jeder Lektion befolgt. Verhindert, dass dasselbe Konzept über die Zeit drei Namen bekommt.
lessons/
Die Lektionen
Ephemer — dürfen sterben. Klein genug fürs Arbeitsgedächtnis, ein greifbarer Win pro Stück.
reference/
Destillat
Die komprimierte, dauerhafte Essenz. Wird — anders als Lektionen — immer wieder besucht.
assets/
Baustein-Bibliothek
Wiederverwendbare Komponenten (Stil, Quiz-Widgets). Reuse ist Default — die Bibliothek wächst mit jeder Sitzung.
Teil A · A3

Was drinsteckt — die Lern-Mechanik

Warum das mehr ist als „schöne Notizen": die Lektionen sind absichtlich nach Lernwissenschaft gebaut.

Wissen → Können → Weisheit

Fluency vs. Storage Strength

Teil A · A4

Sauber halten & unendlich wachsen — die Anti-Mutations-Regeln

Ein selbst-akkumulierendes Lern-System hat eine Gefahr: es kann anfangen, sich selbst zu füttern — und dann seine Fehler genauso zuverlässig kompoundieren wie sein Wissen. So sieht das konkret aus, wenn ein naiv gebauter Tutor verrottet:

Was der Lernende erlebtWas im naiven Bau passiertWas ihn festhält
„Er erklärt mir zum dritten Mal, was längst sitzt."Der Tutor nimmt an, was angekommen ist, statt es zu messen.Messen statt Selbstauskunft — der Loop kalibriert auf echten Antworten.
„Ein ‚Fakt' in der Erklärung stimmt nicht."Das Modell füllt Lücken aus dem eigenen Wissen.Behauptung nur mit Quelle — Fakten nur referenziert aus kuratiertem Bestand.
„Sitzung 12 weiß nichts von Sitzung 11."Der Kontext lebt im Chat-Verlauf — und verdampft mit ihm.Append-only Gedächtnis — Records & Notizen statt Chat-Historie.
„Erst zu leicht, dann plötzlich zu schwer."Die Schwierigkeit folgt dem Bauchgefühl des Modells.ZPD aus echten Daten — nächste Schwierigkeit = f(gemessene Historie).

Auffällig: keiner dieser vier Fixes lautet „besseres Modell". Alle vier sind Struktur um das Modell herum — deshalb altern naive Tutoren auch mit dem stärksten Modell, und deshalb ist der Harness der Hebel. Dahinter stehen sieben Mechaniken, die den Loop dauerhaft sauber halten. Keine davon ist Disziplin — alle sind Struktur:

1
Append-only als Mutations-Sperre
Records werden nie umgeschrieben, nur nummeriert angehängt. Drift kann nur hinzukommen und bleibt sichtbar und datierbar.
2
Getrennte Halbwertszeiten
Lektionen dürfen sterben, das Destillat bleibt. So wächst nur das Kapital, nicht der Müll — der Kontext bleibt klein genug für jede neue Sitzung.
3
Behauptung nur mit Quelle
Nie dem eigenen Modellwissen trauen, immer zitieren. Sonst lernt das System aus seinen eigenen Outputs — und Halluzinationen werden zu „Fakten". Der Loop braucht einen Anker außerhalb seiner selbst.
4
Messen statt Selbstauskunft
Der Rückkanal macht das Quiz-Ergebnis zum gemessenen Input. Die Schwierigkeit kalibriert sich an Verhalten, nicht an „das saß bestimmt".
5
Eine Wahrheit pro Bedeutungsachse
Glossar für Begriffe, Mission für Zweck, Quellen für Fakten — jede Achse hat genau einen Ort. Semantische Drift wird strukturell unmöglich.
6
Reuse-Default in der Bibliothek
Nie duplizieren. Ein Fix an einem Widget heilt alle künftigen Lektionen — statt 50 divergierender Kopien.
7
Grenze: Eigenes vs. Upstream
Eigene Anpassungen leben getrennt vom Original, geschützt gegen blindes Überschreiben durch Updates.
Die häufigste Art, wie so ein System kaputtgeht

Der Loop beginnt, sich selbst zu füttern — Records aus ungemessenen Annahmen, Lektionen aus Modellwissen statt Quellen, Duplikate statt Reuse. Dann kompoundiert das System seine Fehler genauso zuverlässig, wie es vorher sein Wissen kompoundiert hat. Jede der sieben Regeln zieht gegen genau diesen einen Punkt.

Verstehens-Check: Warum darf der Tutor den Learning-Record nicht „aus dem Gefühl" schreiben?

Weil sich die nächste Schwierigkeit (ZPD) dann an eingebildeter statt gemessener Kompetenz kalibriert — und die Kurve dem Lernenden davonläuft. Genau dafür existiert der „Ergebnis melden"-Rückkanal: er macht aus Fluency-Illusion einen gemessenen Stand (Regel 4).

Teil B · Tausende Lernende — B1

Drei Sorten Zustand — nicht zwei, nicht eine

Die naheliegende Frage „je Nutzer eine Umgebung pro Lektion, pro Thema oder nur einmal?" ist der falsche Schnitt — sie behandelt allen Zustand gleich. Richtig sortiert man nach der Frage: Wem gehört diese Wahrheit?

KategorieWas es istBeispiele
geteilt · einmal
Fakten-Autorität
Was für alle Lernenden identisch ist. Kuratiert, versioniert, geprüft. Der Agent liest es — er erfindet es nicht.Quellen, Glossar, Fachwissen, geprüfte Content-Atome
pro Nutzer
Lerner-Wahrheit
Was diesen einen Menschen ausmacht: sein Ziel, sein gemessener Fortschritt, seine Missverständnisse.Mission, gemessene Ergebnisse, Fortschritts-Log
wegwerfbar
Abgeleitetes Artefakt
Alles, was aus den ersten beiden jederzeit neu gebaut werden kann. Cache, keine Wahrheit.Lektionen, persönliche Referenz-Blätter
Teil B · B2

Die Architektur: drei Schichten

Jede Kategorie bekommt ihre eigene Schicht. Der Agent arbeitet in einer materialisierten Sitzungs-Ansicht (Schicht 3), die die geteilte Wahrheit (Schicht 1) referenziert statt kopiert und den Fortschritt (Schicht 2) misst.

Schicht 1Geteiltes Curriculum — pro Fach, einmalAgent: read-only
Redaktionell verantwortet, versioniert. Die einzige Quelle für Fakten. Der Agent darf Lücken melden, nie direkt schreiben.
Quellen-RegistryGlossarKonzept-Graph (fachübergreifend)geprüfte Content-AtomeBaustein-Bibliothek
↑ liest Fakten (read-only, per ID + Version)↓ misst Fortschritt (write-only, Events)
Schicht 2Progress-Store — einer pro NutzerAgent: write-only
Nutzer-global: Mission & Präferenzen. Darunter ein append-only Event-Log — jede Zeile: Konzept, Item, Content-Version, Ergebnis, Zeit. Die einzige Quelle der Schwierigkeits-Berechnung.
Mission (nutzer-global)Präferenzen / Lernstilappend-only Event-Logversions-gepinnt
Nächste Schwierigkeit (ZPD) = f( Nutzer-Events × geteilter Konzept-Graph ). So ist die Pharma-Schwierigkeit automatisch von der Physiologie-Historie informiert — Fächer sind in der Medizin keine Silos.
↕ baut & verwirft — materialisiert aus Schicht 1 + 2, jederzeit rebuildbar
Schicht 3Materialisierter Workspace — pro Nutzer × FachSitzungs-Cache
Was der Agent in einer Sitzung tatsächlich lädt: relevanter Graph-Ausschnitt + relevante Events + Mission. Wegwerfbar — hier leben die ephemere Lektion und die persönliche Merk-Essenz.
ephemere Lektionpersönliche Referenz (zitiert Schicht-1-IDs)Sitzungs-Kontext
Merksatz

Personalisiert wird die Didaktik (Auswahl, Reihenfolge, Schwierigkeit, Rahmung) — geteilt bleiben die Fakten. Alles Wertvolle ist jederzeit aus Schicht 1 + 2 neu baubar.

Teil B · B3

Die richtige Körnung

Nicht „pro Lektion" (zu fein) und nicht „einmal pro Nutzer für alles" (zu grob). Der Trick: Daten und Sitzung getrennt körnen.

SchnittWas passiertUrteil
Voller Workspace pro LektionJede Lektion kennt die Historie nicht → falsche Schwierigkeit, Re-Teaching, Spaced Repetition unmöglich. Millionen Verzeichnisse, Kontext bei jeder Lektion neu.zu fein
Alles in einen TopfAgent muss alles laden, Fächer-Records vermischt → Schwierigkeits-Rechnung verrauscht. Handy + Laptop parallel = Schreibkonflikte.zu grob
Daten: pro Nutzer × KonzeptEin Event-Log pro Nutzer, gekeyt auf Konzept-IDs eines fachübergreifenden Graphen. Personalisierung exakt, Prärequisiten über Fächer hinweg.richtig
Sitzung: pro Nutzer × FachDer materialisierte Workspace als Bedien-/Sitzungsgrenze — Cache, nicht Eigentum. Sauber isoliert, aus dem gemeinsamen Log gespeist.richtig
Teil B · B4

Der eigentliche Chaos-Killer: Governance

Beide Naiv-Ansätze übersehen dasselbe: bei geprüftem Medizin-Content ist nicht der Speicher-Schnitt das Risiko, sondern die Governance.

Was von der Original-Mechanik wie angepasst wird

Original (1 Lernender)Skaliert (tausende)
Quellen pro WorkspaceZentrale, versionierte Quellen-Registry pro Fach, verantwortet von einem Fach-Review-Board. Für den Agent read-only; Lücken → Vorschlags-Queue.
Glossar pro WorkspaceGeteilte Terminologie-Wahrheit, versioniert. Nutzer dürfen Eselsbrücken an Begriffs-IDs hängen, nie Begriffe umdefinieren.
Fortschritts-Log (Freitext)Strukturierte Events (Konzept, Item, Version, Score, Zeit) — append-only. Freitext zusätzlich, das gemessene Rückgrat ist maschinenlesbar.
Nächste Schwierigkeit (ZPD)Personalisiert wird Auswahl, Reihenfolge, Schwierigkeit, Rahmung — nicht die Fakten. Regel: Agent darf formulieren, nie faktisch erfinden.
Reuse-BibliothekGeteilte Komponenten pro Fach mit Promotions-Pipeline: gute agent-gebaute Bausteine werden nach Review hochgestuft. 10.000 Nutzer verbessern die Bibliothek füreinander.
Verstehens-Check: Eine falsche Dosierung wird entdeckt — warum ist „jeder Nutzer hat seine Kopie" jetzt ein Desaster?

Weil niemand mehr weiß, wer welche Version gesehen hat — es gibt zehntausende leicht divergierte Kopien und keinen Rückrufmechanismus. Mit Referenz + Versions-Pin ist es eine Abfrage: alle Nutzer-Events zeigen auf die fehlerhafte Content-Version → gezielt benachrichtigen, korrigierte Version ausrollen.

Die drei nicht-verhandelbaren Prinzipien

Teil C · Das Konzept in der Praxis

Der Tutor-Loop — auf einer Plattform, die Fragenbank und Antwort-Daten schon hat

Medizin lernen heißt zu großen Teilen kreuzen: Fragen beantworten, mit Spaced Repetition vertiefen. Eine Plattform mit kuratierter Fragenbank und Millionen beantworteten Fragen bringt damit den schwersten Teil des Systems schon mit — den Messkanal. Der Lern-Loop ist dort von Tag 1 geschlossen; jede Antwort landet ohnehin in der Datenbank.

Einordnung

Was die bestehende Plattform im Detail bereits kann, kennen wir nur von außen — gut möglich, dass Teile davon längst existieren. Diese Seite erklärt deshalb bewusst das Kernprinzip und zeigt, wie es dort funktionieren könnte. Die Markierung „vermutlich vorhanden / neu" ist eine Annahme aus der Außensicht, kein Audit — der erste gemeinsame Schritt wäre, sie gegen den echten Systemstand zu halten.

Der Loop — ein Konzept, ein Kreislauf

vermutlich vorhanden neu bauen Lernender
neu
Anker · einmalig
① Mission erfassen
Warum lernt die Person? Prüfung, Datum, Schwachgefühl. Ein kurzes Onboarding-Gespräch — erdet alles Weitere.
vermutl. vorhanden
Lesen
② Kreuz-Historie lesen
Die beantworteten Fragen in der Datenbank — inkl. Spaced-Repetition-Stand. Das ist der gemessene Lernstand.
neu
Kalibrieren
③ Schwäche wählen (ZPD)
Der Tutor bestimmt aus Historie × Curriculum-Struktur das eine Konzept mit dem größten Hebel — fachübergreifend (eine Pharma-Lücke kann eine Physiologie-Lücke sein).
neu
Erklären
④ Mini-Lektion bauen
Kurze, persönliche Erklärung um genau diese Schwäche — Fakten nur referenziert aus dem kuratierten Bestand, der Tutor liefert die Didaktik.
vermutl. vorhanden
Üben
⑤ Gezielt kreuzen
Der Tutor schickt den Lernenden in die passenden Fragen der bestehenden Fragenbank — Spaced Repetition läuft weiter wie gehabt.
Lernender
Messen · automatisch
⑥ Antworten fließen in die Datenbank
Kein neuer Rückkanal nötig — Kreuzen ist der Messkanal.
neu
Festhalten
⑦ Tutor-Notiz anhängen
Eine kurze, nur-anhängbare Notiz pro Sitzung: erkanntes Missverständnis, was erklärt wurde. Damit knüpft die nächste Sitzung nahtlos an.
Der Loop schließt sich — automatisch Nächste Sitzung: der Tutor liest Historie + Notizen (②), kalibriert neu (③) — der Kreislauf trägt sich selbst und wird mit jeder Runde präziser.

Warum es das noch nicht gibt

Die überraschende Antwort: nicht am Modell und nicht am Content. Beides ist da — oft mehr, als man von außen sieht.

Der eigentliche Engpass

Jedes einzelne Stück existiert oft schon — nur eben als getrennte Werkzeuge und als Daten, nicht als System: ein Agent erzeugt Fragen, einer prüft ihre Qualität, einer mappt das Curriculum, die Antwort-Daten liegen als Produkt-Statistik vor. Was fehlt, ist der eine Teil, den kein einzelnes Werkzeug besitzt: der geschlossene Kreislauf um den einzelnen Lernenden — ein sauber pro Person fortgeschriebener Lernstand auf einem fachübergreifenden Konzept-Graphen, auf den der Tutor bei jeder Sitzung handelt, statt nur Content zu zeigen.

Das ist kein KI-Fähigkeits-Problem, sondern ein Integrations- und Ownership-Problem. Genau deshalb kann ein Team mit viel KI-Kompetenz und vielen Agents trotzdem keinen guten Teach-Loop haben: jeder Agent optimiert einen Schritt, aber niemand besitzt den ganzen Kreis. Solange das so bleibt, hat man viele gute Einzelteile — aber keinen Loop, der für den Lernenden mit jeder Runde besser wird.

Nur drei Bausteine sind neu

Alles andere — Fragenbank, Antwort-Daten, Spaced Repetition, Curriculum-Struktur — bleibt unangetastet. Die Anti-Mutations-Regeln aus Teil A und die Prinzipien aus Teil B gelten unverändert.

1
Mission pro Lernendem
Ein kurzes Onboarding: Warum, welche Prüfung, wann, wo drückt es? Gibt dem Tutor das Ziel, an dem jede Sitzung hängt. Klein — ein Gespräch + ein Datensatz.
2
Der Tutor-Agent
Liest Kreuz-Historie, wählt die Schwäche, baut die Mini-Lektion, schickt in die passenden Fragen. Liest Fakten nur aus dem kuratierten Bestand — erfindet nie. Der Kern: Didaktik, nicht Content.
3
Tutor-Notizen
Nur-anhängbares Sitzungs-Log pro Lernendem: Missverständnisse, Erklärtes, Mission-Änderungen. Das Gedächtnis zwischen den Sitzungen. Klein — eine Tabelle, nie editiert.

In der Medizin ist ein falsches Faktum kein UX-Bug, sondern ein Sicherheitsthema. Deshalb erfindet der Tutor nie Inhalte: jede Aussage ist auf reviewten Bestand referenziert, die Didaktik bleibt frei, die Fakten bleiben es nicht — der bestehende Autoren-/QA-Review ist genau die Instanz, die das absichert.

Pilot — bewusst klein

Ein Fach, eine Kohorte. Zuerst die „vermutlich vorhanden"-Annahmen gegen den echten Systemstand halten, dann: Mission-Onboarding + Tutor-Agent + Notizen auf der bestehenden Fragenbank dieses Fachs. Gemessen wird gegen eine Vergleichsgruppe ohne Tutor: Kreuz-Performance und Wiederkehr-Rate. Erst wenn das trägt, weitere Fächer — die Architektur ändert sich dabei nicht mehr, sie wiederholt sich nur.

Warum das den Nutzer bindet

Kuratierter Content — Fragen, Videos, Erklärungen — lässt sich kopieren und zunehmend von generischen KI-Modellen imitieren; er ist als Alleinstellung immer weniger wert. Ein pro Lernendem gemessener Loop dagegen entsteht nur auf der eigenen Plattform: die Kreuz-Historie, die daran kalibrierte Didaktik und die über Monate gewachsenen Tutor-Notizen gibt es nirgends sonst. Der Wert verschiebt sich vom austauschbaren Inhalt in die persönliche Lernbeziehung — je länger jemand im Loop lernt, desto besser passt sie auf ihn und desto schwerer ist er woanders nachzubauen.

Fazit

Der Kern in drei Sätzen

2 / 3
Schichten gibt es vermutlich schon.
Zusammengefasst

A: Für einen Lernenden ist der Wert das Harness — persistentes Gedächtnis mit klaren Rollen plus ein gemessener statt angenommener Feedback-Loop; sieben Strukturregeln halten ihn sauber und unendlich wachstumsfähig.

B: Für tausende trennt man den Zustand nach Autorität in drei Schichten — geteilte Fakten, Fortschritt pro Nutzer, Sitzungs-Workspaces wegwerfbar. Personalisiert wird die Didaktik, geteilt bleiben die Fakten.

C: Auf einer Plattform mit Fragenbank und Kreuz-Daten sind Content und Messkanal schon da — was fehlt, ist nicht Content oder Modell, sondern der geschlossene Loop um den einzelnen Lernenden. Genau deshalb hat viel KI-Kompetenz allein noch keinen guten Teach-Loop ergeben: es ist ein Integrations-, kein Fähigkeits-Problem.