Fragestellungen der Studie:
Rezension zur Studie
Faber, J. M., Glas, C. A. & Visscher, A. J. (2018). Differentiated instruction in a data-based decision-making context. School Effectiveness and School Improvement, 29(1), 43–63.FIS BildungErwartungsgemäß sollte ein datengestützter bzw. evidenzbasierter Unterricht zu einer Leistungsverbesserung der Schülerinnen und Schüler beitragen. Dies gilt entsprechend für binnendifferenzierten Unterricht, bei dem Lehrkräfte u. a. abhängig vom Leistungsniveau z. B. Lehrmethoden sowie Lerninhalte, -aktivitäten und -aufgaben anpassen, um individuelles Lernen zu optimieren.
Faber, Glas und Visscher untersuchen, inwiefern die Mathematikleistungen von 953 Schülerinnen und Schülern der 2. und 5. Jahrgangsstufe in Zusammenhang stehen mit der vorherigen Planung und Umsetzung eines binnendifferenzierten Unterrichts, der von Lehrkräften vor dem Hintergrund der anfänglichen Schülerleistungen für unterschiedliche Leistungsgruppen vorbereitet worden war. Hierzu wurden die Unterrichtsplanung und der Unterricht von 51 Lehrkräften aus 26 Schulen anhand vorgegebener Kriterien für Binnendifferenzierung bewertet. Basierend auf 89 Unterrichtsplänen und 144 videografierten Unterrichtsbeobachtungen wurden Maße der Binnendifferenzierung ermittelt und mit den Testleistungen der Schülerinnen und Schüler zum Ende des Schuljahres mehrebenenanalytisch in Beziehung gesetzt, wobei als Kontrollvariablen das Geschlecht, das Bildungsniveau der Eltern, die Jahrgangsstufe und das anfängliche Leistungsniveau berücksichtigt wurden.
Überraschenderweise finden sich keine Hinweise auf positive Effekte einer stärker ausgeprägten Binnendifferenzierung auf die Schülerleistungen, weder bezüglich der Planung noch der Umsetzung. Zudem erzielen gerade leistungsschwache Gruppen bei mehr Binnendifferenzierung vergleichsweise schlechtere Ergebnisse. Angesichts dieser überwiegend erwartungswidrigen Ergebnisse zieht das Autorentrio als Erklärung eine umgekehrte Kausalität in Betracht, d. h., dass in Lerngruppen mit vielen leistungsschwachen Schülerinnen und Schülern und einer sehr heterogenen Schülerschaft möglicherweise mehr Binnendifferenzierung stattfindet. Ungeachtet dessen plädieren sie dafür zu untersuchen, inwiefern niedrige Leistungserwartungen, weniger anregende Lernmaterialien und ein Mangel an Fähigkeiten zur Selbstregulation das verhältnismäßig schlechtere Abschneiden dieser Gruppe erklären.
Aufgrund bedeutsamer Limitationen des Untersuchungsdesigns können die Ergebnisse nicht dahingehend generalisiert werden, dass Binnendifferenzierung im Allgemeinen keinen positiven Einfluss auf Schülerleistungen hat bzw. haben kann.
Nachfolgende Reflexionsfragen sind ein Angebot, die Befunde der rezensierten Studie auf das eigene Handeln als Lehrkraft oder Schulleitungsmitglied zu beziehen und zu überlegen, inwiefern sich Anregungen für die eigene Handlungspraxis ergeben. Die Befunde der rezensierten Studien sind nicht immer generalisierbar, was z. B. in einer begrenzten Stichprobe begründet ist. Aber auch in diesen Fällen können die Ergebnisse interessante Hinweise liefern, um über die eigene pädagogische und schulentwicklerische Praxis zu reflektieren.
Reflexionsfragen für Lehrkräfte:
Reflexionsfragen für Schulleitungen:
In der Einleitung führen Faber et al. aus, dass bildungspolitische Akteure mit der Nutzung von datengestützten bzw. evidenzbasierten Entscheidungen (engl. data-based decision making; DBDM) auf Schul- und Unterrichtsebene Erwartungen an eine dadurch bedingte Förderung von Schülerleistungen knüpfen. Die Forschung hierzu sei jedoch nicht eindeutig. Es existieren Befunde, die die angenommen DBDM-Effekte bestätigen. Andere Studien wiederum finden keine Effekte. Dabei sei es schwierig, den Beitrag von DBDM zu den (nicht) gefundenen Effekten abzuschätzen, da sich die daran geknüpften Interventionen häufig unterscheiden.
Vor diesem Hintergrund untersucht das Autorentrio im DBDM-Kontext, inwiefern die Praxis eines differentiated instruction-Ansatzes (DI) in Form einer leistungsabhängigen Binnendifferenzierung in Zusammenhang steht mit der Schülerleistung.
Im theoretischen Hintergrund führen Faber et al. zunächst in das DBDM-Konzept ein: Es ist dazu gedacht, mit Hilfe der Verwendung von Daten den Unterricht und die Schule in ihren Prozessen und Wirkungen zu verbessern. Dieses Ziel soll über verschiedene Schritte angebahnt werden. Erstens erfolgt die Analyse von Schülerleistungen (formativ und summativ), davon ausgehend werden anschließend für jeden Lernenden realistische und herausfordernde Ziele gesetzt. Auf dieser Basis entscheidet die Lehrkraft mit den Lernenden, welche Strategie zur Zielerreichung gewählt wird. Im letzten Schritt kommt es zur Umsetzung dieser Strategie im Rahmen eines bestimmten Unterrichtskonzepts. Auf den letzten Schritt legen Faber et al. ihren Analyseschwerpunkt und fokussieren dabei auf einen differentiated instruction-Ansatz (DI).
Vor diesem Hintergrund definieren und erläutern sie den DI-Ansatz, der in der Literatur unterschiedlich konzeptualisiert werde. In einer Synthese stellen sie heraus, dass DI geplant ist und die Initiierung von Lernprozessen auf der Basis der Analyse von Schülerleistungen erfolgt. Außerdem halten sie fest, dass DI durch die Variation von Lernzielen, Inhalten, Lernzeit, Aufgabenstellungen und Unterrichtsmaterial beobachtbar ist und sich an den verschiedenen Bedarfen der Lernenden orientiert.
Neben den Ausführungen zu DBDM und DI gehen sie abschließend auf Ansätze und Befunde zum Lernen in heterogenen (Klein-)Gruppen ein. Es liegen Erkenntnisse vor, dass die Arbeit in kleinen Lerngruppen einen positiven Einfluss auf die Schülerleistungen hat. Dabei zeigen sich jedoch je nach Leistungsfähigkeit unterschiedliche Wirkungen im Blick auf die Arbeit in heterogenen versus homogenen Leistungsgruppen. Leistungsschwache profitierten insbesondere vom Unterricht in leistungsheterogenen Lerngruppen (durch den Fokus auf Lernen durch den Erhalt von Erklärungen), durchschnittlich befähigte Schülerinnen und Schüler lernten besonders in leistungshomogenen Gruppen (durch den Fokus auf Lernen durch Erklären) und für Leistungsstarke sei die Konstellation der Lerngruppen nicht so von Bedeutung (durch den Fokus auf Lernen als Tutoren).
Dabei zeige die Forschung, dass die Gruppierung von Lerngruppen nach Leistungen in einer eher leistungshomogenen Schülerschaft oder bei Schülerinnen und Schülern mit günstigem sozioökonomischem Hintergrund sich positiv auswirkt. Dem gegenüber finden sich negative Effekte in leistungsheterogenen Lerngruppen oder solchen mit niedrigem sozioökonomischem Status. Dies könne z. B. daran liegen, dass Lehrkräfte ihre Ansprüche herabsetzen oder sie mehr Zeit zur Verhaltenssteuerung der Schülerinnen und Schüler als für den eigentlichen Lehr-Lernprozess verwenden. Wenn sich Lehrkräfte einzelnen Schülerinnen und Schülern oder kleineren Lerngruppen zuwenden, erfordert dies wiederum Fähigkeiten der Selbstregulation bei denjenigen, die gerade keine Lernunterstützung von Seiten der Lehrkraft erfahren. Insgesamt sei es demnach für die Effektivität des DI sehr entscheidend, wie die Lehrkraft diesen Ansatz umsetzt.
Vor dem skizzierten Hintergrund leiten Faber et al. drei Hypothesen ab:
Intervention und Stichprobe
Die beteiligten Schulen gehörten zu einer Interventionsgruppe, die im Vorfeld der Untersuchung über einen Zeitraum von zwei Jahren eine intensive Schulung absolviert hatte, um entsprechend dem DBDM-Konzept verschiedene Daten zu Schülerleistungen auswerten, hieraus Lernziele formulieren, Instruktionsstrategien herleiten und eine darauf aufbauende passgenaue Instruktion gestalten zu können. Als Grundlage für die Planungen dienten die Ergebnisse des im halbjährlichen Turnus durchgeführten CITO-Tests (einem standardisierten Leistungstest) im Fach Mathematik. Je nach Leistungslevel und Referenz zur eigenen Lerngruppe wurden die Schülerinnen und Schüler für den Unterricht nach dem DI einer leistungsschwachen, durchschnittlichen oder leistungsstarken Gruppe zugeordnet. Diese drei Gruppen erhielten unterschiedliche Unterstützungen und Lernmaterialien.
Die Datenerhebungen erfolgten in 26 Grundschulen. Zur Prüfung der Hypothesen wurden von 51 Lehrkräften jeweils bis zu drei Unterrichtseinheiten in Mathematik beobachtet, videografiert und hinsichtlich der Binnendifferenzierung bewertet (insgesamt 144 Unterrichtseinheiten). Zusätzlich wurden die halbjährlich zu erstellenden Unterrichtspläne, die den videografierten Unterrichtsstunden zugrunde lagen, mithilfe einer Checkliste analysiert (insgesamt 89 Unterrichtspläne). Die Mathematikleistungen von 953 Schülerinnen und Schülern der zweiten und fünften Jahrgangsstufe wurden ermittelt durch standardisierte Tests am Schuljahresende (Posttest; 2,1 % fehlende Werte), wobei die Testergebnisse des vorangegangenen Schuljahres als Kontrollvariable dienten (Pretest; 7,3 % fehlende Werte). Von den Schülerinnen und Schülern besaßen 19 % einen besonderen Unterstützungsbedarf, für welchen die Schulen zusätzliche finanzielle Ressourcen erhalten, wenn die Eltern ein bestimmtes Bildungsniveau nicht überschreiten.
Instrumente
Für die Unterrichtsbeobachtungen (Videografie, bis zu drei Unterrichtsstunden pro Lehrkraft, bewertet von drei trainierten Ratern) wurden mehrere Items aus dem validierten ICALT-Instrument verwendet (Cronbachs α = .73), die auf einer vierstufigen Likertskala einzuschätzen waren („überwiegend schwach“ bis „überwiegend stark“):
Die Lehrkraft
1. bietet zusätzliches Material an für Schülerinnen und Schüler, die sich schwertun,
2. passt die Unterrichtsaktivitäten an relevante Unterschiede der Schülerinnen und Schüler an,
3. passt die Aufgaben an relevante Unterschiede der Schülerinnen und Schüler an.
Um Aussagen über die Unterrichtsplanung machen zu können, wurde eine standardisierte Checkliste verwendet mit 43 Items zur Instruktion (z. B. Lernmaterial, Lernzeit), zu den Lernzielen (z. B. Spezifizierung von Mindestanforderungen für die richtige Lösung von Aufgaben) und zur Evaluation (z. B. Spezifizierung weiterer Lernaktivitäten, wenn Lernziele nicht erreicht wurden). Zwei Rater bewerteten die Unterrichtspläne (ICC = .63).
Außerdem kamen standardisierte CITO-Leistungstests für das Fach Mathematik zum Einsatz, mit dem drei Bereiche erfasst werden: a) Arithmetik, b) Proportionen, Bruch- und Prozentrechnung sowie c) Geometrie, Zeit und Geldberechnungen.
Statistische Analysen
Die Ergebnisse aus dem CITO-Test wurden IRT-skaliert (generalisiertes Partial-Credit-Modell). Modellierungen gemäß der Generalisierbarkeitstheorie kamen bei den Beobachtungen zum Einsatz. Die Maße der Binnendifferenzierung aus den Unterrichtsbeobachtungen und aus der Bewertung der Unterrichtsplanung wurden mit den Testleistungen der Schülerinnen und Schüler zum Ende des Schuljahres mehrebenenanalytisch in Beziehung gesetzt, wobei als Kovariaten das Geschlecht, das Bildungsniveau der Eltern, die Jahrgangsstufe und das anfängliche Leistungsniveau berücksichtigt und fehlende Werte imputiert wurden.
Die Ergebnisse zeigen, dass 37 % der Varianz der Unterrichtsbeobachtungen durch Unterschiede zwischen den Lehrkräften und 19 % der Varianz durch Unterschiede zwischen den Unterrichtsstunden erklärt werden können. Die Interaktion zwischen diesen beiden Variablen (Lehrkräfte x Unterrichtsstunden) klärt wiederum ca. 13 % Varianz auf.
Die Werte aus den beiden Mathematiktests (Pretest, Posttest) korrelieren signifikant und sehr hoch (r = .92, auf Klassenebene r = .98, p < .01). Die beobachtete Binnendifferenzierung im Unterricht korreliert mit beiden Werten signifikant positiv (rPretest = 0.19, rPosttest = 0.17, p < .01), dies gilt auch für die aggregierten Werte auf Klassenebene (rPretest = 0.22 und rPosttest = 0.20, p < .01). Die Zusammenhänge zwischen der Binnendifferenzierung in der Unterrichtsplanung und den Mathematikleistungen sind signifikant negativ (rPretest = -0.13 und rPosttest = -0.15, p < .01). Zusätzlich fällt auf, dass es keinen signifikanten Zusammenhang zwischen der beobachteten Binnendifferenzierung und der Binnendifferenzierung in der Unterrichtsplanung gibt, was so nicht erwartet wurde, da es plausibel wäre anzunehmen, dass Planung und Umsetzung von Binnendifferenzierung miteinander in Beziehung stehen.
Die Ergebnisse der Mehrebenenanalysen verdeutlichen, dass in beiden Schulstufen die Mathematikleistungen der Mädchen signifikant niedriger sind als die der Jungen (ß = -0.08). Die Werte der Schülerinnen und Schüler aus der fünften Jahrgangsstufe sind höher als die der zweiten (ß = 0.89). Schülerinnen und Schüler mit einem hohen Pretest-Wert erzielen im Posttest höhere Werte als Schülerinnen und Schüler mit niedrigeren Werten (ß = 0.48).
Für die beobachtete und geplante Binnendifferenzierung ergeben sich keine Hinweise auf positive Einflüsse auf die Posttest-Ergebnisse, sodass die beiden Hypothesen 1 und 2 widerlegt werden. Die leistungsstarken Gruppen schneiden signifikant besser ab als Gruppen mit durchschnittlicher Leistung (ß = 0.41), wohingegen die leistungsschwachen Gruppen signifikant schlechter abschneiden (ß = -0.22). Schülerinnen und Schüler in leistungsschwachen Gruppen, in denen Lehrkräfte hohe Werte für die beobachtete Binnendifferenzierung aufweisen, schneiden im Posttest vergleichsweise schlechter ab als Schülerinnen und Schüler in Gruppen mit durchschnittlichen Leistungen und hohen Werten der Binnendifferenzierung (ß = -0.20). Dieses Ergebnis kann als Bestätigung von Hypothese 3 gedeutet werden: Lernende mit unterschiedlicher Leistungsstärke profitieren in unterschiedlicher Weise vom DI-Ansatz. Allerdings liegen keine Effekte für Schülerinnen und Schüler mit besonderem Unterstützungsbedarf vor.
Hintergrund
Die Studie von Faber et al. greift vor dem Hintergrund von datengestützter Schul- und Unterrichtsentwicklung (data-based decision making, DBDM) und der Diskussion um die Wirksamkeit eines leistungsdifferenzierenden Unterrichtsansatzes (differentiated instruction, DI) inkl. der damit verbundenen Unterrichtsplanung ein für die Administration und für die Schule relevantes Forschungsdesiderat auf. Im Zusammenhang mit einer Intervention zur Gestaltung von Binnendifferenzierung werden nachfolgende DI-Planungen und DI-Unterrichtspraktiken von Lehrkräften sowie Mathematikleistungen ihrer Schülerinnen und Schüler erhoben und im Hinblick auf Unterschiede zwischen leistungsschwachen und leistungsstarken Gruppen untersucht.
Die Relevanz dieser Studie ergibt sich aus der Diskrepanz zwischen den mit dem DBDM-Konzept verbundenen Erwartungen und der bislang in diesem Kontext nur bedingt aufschlussreichen Studienlage zu den DBDM-Wirkungen. Der Reihe nach führen Faber et al. in die Konzepte DBDM, DI sowie in Prozesse und Wirkungen in leistungsunterschiedlichen Gruppen ein und rezipieren damit verbundene Forschungsergebnisse. Hieraus leiten sie ihre Hypothesen ab. Die Argumentationsweise und Hinführung zur eigenen Studie erscheinen aus Sicht des Rezensenten gelungen.
Design
Das Studiendesign und die Durchführung werden ausführlich und nachvollziehbar benannt. Die Angaben zu den verwendeten Forschungsinstrumenten werden unter Verweis auf die Primärquellen gegeben. Durch die IRT-Skalierung der CITO-Tests sowie die Nutzung der Generalisierbarkeitstheorie für die Daten aus den Unterrichtsbeobachtungen und die Nutzung von Mehrebenenanalysen zur Klärung der Leistungseffekte wird der hierarchischen, geschachtelten Datenstruktur angemessen entsprochen.
Die Instrumente zur Erfassung von geplanter und beobachteter Binnendifferenzierung weisen jedoch Schwächen auf. Bereits die Nullkorrelation zwischen diesen Maßen wirkt mit Blick auf die Validität der Konstrukte und ihre Operationalisierung nicht vertrauenserweckend, bestenfalls ist sie der mangelnden Varianz geschuldet. So wurde die im Unterricht beobachtete Binnendifferenzierung anhand von lediglich 3 Items erfasst, was keine große Streuung erwarten lässt, insbesondere vor dem Hintergrund, dass die Lehrkräfte zuvor intensiv geschult wurden. Die Checkliste zur Bewertung der Unterrichtsplanung umfasst hingegen 43 Kriterien, jedoch weist das Autorentrio selbst darauf hin, dass die Unterrichtspläne der Lehrkräfte aufgrund des vorgegebenen Formats sehr ähnlich waren. In Verbindung mit dem Untersuchungsdesign, das keine Kontrollgruppe ohne vorherige Intervention vorsah, sind somit bereits die „technischen“ Voraussetzungen für eine Varianzaufklärung durch Unterschiede im Unterricht denkbar schlecht. Dies kommt auch in der sehr hohen Korrelation der Pre- und Posttestwerte zum Ausdruck (r = .92 bzw. r = .98 auf Klassenebene). Leider wird dadurch die ambitionierte und sehr aufwendige Untersuchungsanlage korrumpiert.
Ergebnisse
Die Zielstellung der Untersuchung wird bedingt erreicht. Die Hypothesen 1 und 2 bestätigen sich nicht. In Klassen mit höheren Werten zu den DI-Praktiken und DI-Planungskompetenzen weisen die Schülerinnen und Schüler bei Kontrolle der Vorleistungen keine signifikant besseren Testleistungen in Mathematik auf. Der fehlende positive Einfluss von DI und DI-Planungskompetenzen könnte nach Ansicht von Faber et al. z. B. auf fehlendes responsives Verhalten der Lehrkräfte und zu starres Festhalten am Stundenverlaufsplan zurückführbar sein.
Eine weitere Erklärung für die ausbleibenden Ergebnisse könnte in der statistischen Auswertung begründet liegen: Da die beobachtete Binnendifferenzierung mit den Pretest-Werten korreliert, könnte durch die Aufnahme der Pretest-Werte als Kovariate in die Mehrebenenanalyse Varianz eliminiert worden sein, die dadurch nicht mehr der Binnendifferenzierung zuzuordnen war. Die zweijährige Intervention zur Förderung von Binnendifferenzierung war zum Zeitpunkt der Datenerhebungen an den Schulen vollständig oder weitgehend abgeschlossen, daher könnte es sein, dass sich die Effekte einer verstärkten Binnendifferenzierung bereits in den Pretest-Werten niederschlagen, was durch die nachgewiesene Korrelation plausibel erscheint. Durch die Kontrolle der Pretest-Werte wurde der Effekt einer stärkeren Binnendifferenzierung dann möglicherweise herausgerechnet.
Im Hinblick auf die dritte Hypothese zeigt sich, dass Schülerinnen und Schüler aus leistungsschwachen Gruppen weniger von den DI-Praktiken profitieren als die durchschnittlichen Gruppen. Dieser Befund bestätigt bisherige Befunde und es sollte aus Sicht des Autorentrios in zukünftigen Studien untersucht werden, ob hierfür niedrigere Erwartungen der Lehrkräfte an leistungsschwache Schülerinnen und Schüler, weniger kognitiv aktivierende Lernaufgaben oder weniger ausgeprägte Selbstregulierungsfähigkeiten der Lernenden verantwortlich sind. Faber et al. reflektieren selbstkritisch, dass für die Analyse der Passung der geplanten und realisierten Differenzierungsmaßnahmen andere Instrumente zum Einsatz kommen sollten (z. B. durch Interviews mit den Lehrkräften). Diese Schlussfolgerungen sind nachvollziehbar.
Neben dem inhaltlichen Erkenntnisgewinn betont das Autorentrio außerdem den methodischen Mehrwert ihrer Vorgehensweise. Die Nutzung von IRT-Modellen und die Auswertung der Beobachtungsdaten mit Hilfe der Generalisierbarkeitstheorie sorgten für reliable und valide Daten. Durch die IRT-Modellierung könnten Verzerrungen, wie z. B. Boden- oder Deckeneffekte, verhindert und eine Optimierung der verwendeten Items vorgenommen werden. Die Auswertung mit der Generalisierbarkeitstheorie ermögliche die Identifikation von für die Varianzaufklärung verantwortlichen Komponenten (z. B. Rater).
Abschließend erwähnt das Autorentrio gut nachvollziehbar mehrere Limitationen ihrer Studie: Zum einen haben sie nicht den Zusammenhang zwischen DBDM und DI analysiert, sodass nicht aufgeklärt werden kann, inwiefern bereits durch die fehlende Wirkung von DBDM auf DI die Wirkungskette auf die Leistungen unterbrochen wurde. Als weitere Limitationen erachten sie 1.) die fehlende Trennung des Tandemeffekts, da Lehrkräfte in den Niederlanden, z. B. auf Grund von Teilzeittätigkeiten, häufig zu zweit oder zu dritt in den Klassen unterrichten, 2.) die Messung von DI mit drei Items und 3.) die noch ausstehende und wünschenswerte Validitätsprüfung der verwendeten Checkliste für die Analyse der Unterrichtsplanung.
Abschließend sei darauf hingewiesen, dass aufgrund der angeführten Limitationen eine unkritische Verallgemeinerung der Ergebnisse nicht angezeigt erscheint.
Landesbildungsserver BW
Bildungsserver MV
Online-Unterstützungsportal zum Referenzrahmen Schulqualität NRW
Schulentwicklung NRW
Aus der Reihe "Beiträge zur Schulentwicklung"
Deutsches Schulportal
Sie haben Fragen oder Anregungen?