monitoring der sozial-emotionalen situation von … · 2017. 9. 4. · monitoring der...

17
19 Empirische Sonderpädagogik, 2017, Nr. 1, S. 19-35 ISSN 1869-4845 (Print) · ISSN 1869-4934 (Internet) Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern – Ist der SDQ ein geeignetes Verfahren? Stefan Voß 1 & Markus Gebhardt 2 1 Universität Rostock 2 Technische Universität Dortmund Zusammenfassung Der Strength and Difficulties Questionnaire (SDQ) ist ein in Forschung und Praxis etabliertes Screeninginstrument zur Diagnostik von Verhaltensstörungen. Im vorliegenden Artikel wird ne- ben der statusdiagnostischen Eignung der Lehrkraftversion des SDQ über die vier Jahre der Grundschule zu je einem Messzeitpunkt hinweg die Einsetzbarkeit des Verfahrens als Instru- ment zur Verlaufsmessung geprüft. Um die Skalierung über die vier Messzeitpunkte zu untersu- chen, wird die Problemwertskala des SDQ mittels des Raschmodells an einer Schuljahreskohor- te einer deutschen Kleinstadt im Längsschnitt analysiert. Die Ergebnisse zeigen, dass der SDQ Gesamtproblemwert mit wenigen Ausnahmen messinva- riant über die Zeit ist. Im Raschmodell über vier Messzeitpunkte weicht ein Item vom eindimen- sionalen Modell ab und wird für weitere Berechnungen entfernt. Anhand von Mehrebenenre- gressionen erkennt man, dass die Personenwerte der Grundschulkinder im Gesamtproblemwert über die Schuljahre leicht ansteigen. Eine Weiterentwicklung des SDQ Richtung eines Instrumentes zur Verlaufsmessung ist möglich, hierzu sollten weitere Items im schwierigen und leichten Bereich konstruiert werden. Schlüsselwörter: SDQ, Gesamtproblemwert, Verlaufsmessung, Verhaltensentwicklung, Rasch- modell Monitoring of the social emotional situation of elementary school students – Is the SDQ a suitable instrument? Abstract The Strength and Difficulties Questionnaire (SDQ) is an established screening tool in research and practice for the purpose of diagnosing behavioral disorders. In this article the teacher ver- sion of the SDQ is analyzed in light of its status diagnostic suitability. Longitudinal data of a school year cohort from a small German town was collected to investigate if the total difficulties score over time meets the requirements of the Rasch model and thus if it’s appropriate for progress monitoring purposes too. The results support measurement equivalence of the SDQ total difficulties score over time but with few exceptions. Only one item failed the criteria of the one-dimensional Rasch model and had to be removed from further calculations. Multilevel regressions indicate a slight increase of the total difficulties score over the school years. Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern

Upload: others

Post on 08-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

19

Empirische Sonderpädagogik, 2017, Nr. 1, S. 19-35ISSN 1869-4845 (Print) · ISSN 1869-4934 (Internet)

Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern – Ist der SDQ ein geeignetes Verfahren?

Stefan Voß1 & Markus Gebhardt2

1 Universität Rostock2 Technische Universität Dortmund

ZusammenfassungDer Strength and Difficulties Questionnaire (SDQ) ist ein in Forschung und Praxis etabliertesScreeninginstrument zur Diagnostik von Verhaltensstörungen. Im vorliegenden Artikel wird ne-ben der statusdiagnostischen Eignung der Lehrkraftversion des SDQ über die vier Jahre derGrundschule zu je einem Messzeitpunkt hinweg die Einsetzbarkeit des Verfahrens als Instru-ment zur Verlaufsmessung geprüft. Um die Skalierung über die vier Messzeitpunkte zu untersu-chen, wird die Problemwertskala des SDQ mittels des Raschmodells an einer Schuljahreskohor-te einer deutschen Kleinstadt im Längsschnitt analysiert.Die Ergebnisse zeigen, dass der SDQ Gesamtproblemwert mit wenigen Ausnahmen messinva-riant über die Zeit ist. Im Raschmodell über vier Messzeitpunkte weicht ein Item vom eindimen-sionalen Modell ab und wird für weitere Berechnungen entfernt. Anhand von Mehrebenenre-gressionen erkennt man, dass die Personenwerte der Grundschulkinder im Gesamtproblemwertüber die Schuljahre leicht ansteigen.Eine Weiterentwicklung des SDQ Richtung eines Instrumentes zur Verlaufsmessung ist möglich,hierzu sollten weitere Items im schwierigen und leichten Bereich konstruiert werden.

Schlüsselwörter: SDQ, Gesamtproblemwert, Verlaufsmessung, Verhaltensentwicklung, Rasch-modell

Monitoring of the social emotional situation of elementary school students –Is the SDQ a suitable instrument?

AbstractThe Strength and Difficulties Questionnaire (SDQ) is an established screening tool in researchand practice for the purpose of diagnosing behavioral disorders. In this article the teacher ver-sion of the SDQ is analyzed in light of its status diagnostic suitability. Longitudinal data of aschool year cohort from a small German town was collected to investigate if the total difficultiesscore over time meets the requirements of the Rasch model and thus if it’s appropriate forprogress monitoring purposes too.The results support measurement equivalence of the SDQ total difficulties score over time butwith few exceptions. Only one item failed the criteria of the one-dimensional Rasch model andhad to be removed from further calculations. Multilevel regressions indicate a slight increase ofthe total difficulties score over the school years.

Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern

Page 2: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

20 Stefan Voß & Markus Gebhardt

A further development of the SDQ towards a progress monitoring measurement is possible. Forthis purpose, additional items should be constructed to reach a better targeting of the instru-ment.

Key words: SDQ, total difficulties score, monitoring, course measurement, behavioral develop-ment, Rasch model

chen Beeinträchtigungen im schulischenoder sozialen Umfeld assoziiert sind (Hu-ber, 2006; Prince et al., 2007; Reef et al.,2011), ist der Bedarf an Instrumenten groß,die das frühzeitige Erkennen emotional-so-zialer Störungen und damit auch den zeit-nahen Einsatz entsprechender Interventi-onsmöglichkeiten ermöglichen. Neben dempunktuellen Einsatz von Screeninginstru-menten zur Identifikation von Verhaltens-schwierigkeiten gibt es im schulischen Be-reich den Ansatz, Verhalten im Längsschnittzu messen und Lehrkräften eine Rückmel-dung hinsichtlich der eingesetzten pädago-gischen Maßnahmen zu ermöglichen. Einederartige formative Evaluation des Verhal-tens hat sich als effektiv erwiesen (Volpe &Fabiano, 2013), jedoch mangelt es an In-strumenten, die ein Monitoring des Verhal-tens über die Zeit reliabel ermöglichen. Da-her ist zu prüfen, inwieweit bestehendeVerfahren dies bereits zulassen.

Verlaufsdiagnostik als Elementschulischer Prävention

Erfolgreiche schulische Prävention ist anverschiedene Anforderungen geknüpft. Soerfordert sie zum einen universelles Wissender schulischen Akteure, d. h. allgemeinesWissen über Entwicklungsprozesse, zentra-le Meilensteine in der Entwicklung, Einfluss-faktoren auf das Lernen und Maßnahmenfür einen guten Unterricht (Hartke, 2005).Zum anderen ist darüber hinaus spezifi-sches Wissen von Nöten, das sich auf dieArt und das Ausmaß verschiedener Störun-gen, deren Ursachen sowie Verlauf ohne In-tervention, verschiedene Handlungsmög-lichkeiten und deren Zielgruppen bezieht.Als ein ebenfalls zentrales Element schuli-

Verhaltensstörungen imGrundschulalter

Für Kinder mit Verhaltensstörungen solltedas protektive Potential frühzeitig einset-zender Präventionsmaßnahmen (u. a. Beel-mann, 2008; Beelmann & Lösel, 2007; Bre-zinka, 2003; Wiedebusch & Petermann,2011) genutzt werden, um ungünstige per-sönliche und schulische Entwicklungen ab-zumildern bzw. zu verhindern (z. B. Frostad& Pijl, 2007; Huber, 2006; Linderkamp &Grünke, 2007; Reef, Diamantopoulou, vanMeurs, Verhulst & van der Ende, 2011;Steinhausen, 2010; Wiedebusch & Peter-mann, 2011). Nationale sowie internationa-le Prävalenzstudien deuten darauf hin, dasszwischen 10 % und 20 % aller Kinder undJugendlichen klinische bzw. quasiklinischeVerhaltensstörungen aufzeigen (Costello,Mustillo, Erkanli, Keeler & Angold, 2003;Ihle & Esser, 2008; Petermann, 2005). Ne-ben diesem hohen Anteil von Verhaltens-störungen im Kindes- und Jugendalterspricht auch der Fakt, dass diese Problema-tiken mit einem gesteigerten Risiko einher-gehen, sich im Verlauf der Entwicklung zumanifestieren bzw. weitere Beeinträchti-gungen zu entwickeln (Beelmann & Raabe,2007; Ihle & Esser, 2008) für die Notwen-digkeit präventiven Handelns.

Da a) viele persistierende psychiatrischeStörungen ihren Ursprung in der Kindheitbzw. der Adoleszenz zu haben scheinen(z. B. Costello, Egger & Angold, 2005), b)der geringe Anteil betroffener Kinder, dietatsächlich Behandlung erhalten (Costello etal., 2005; Petermann, 2005), u. a. für einemangelnde Erkennungsgüte in der Praxissprechen und c) Verhaltensstörungen imKindes- und Jugendalter häufig mit deutli-

Page 3: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

21Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern

scher Prävention postuliert Hartke (2005)darüber hinaus das Monitoring des betroffe-nen Problemfeldes über die Zeit. Monito-ring meint hierbei eine fortlaufende Beob-achtung und Dokumentation der Entwick-lung mit dem Ziel der Adaption der einge-setzten Maßnahmen, sofern avisierte Ent-wicklungsergebnisse ausbleiben. Damit ver-bunden sind verschiedenste Methoden mitstark variierenden Graden an Strukturierungbzw. Systematik sowie Standardisierung(Bell & Cowie, 2001). Allen gemein ist, dassdurch das wiederholte Erheben von Schü-lerdaten Entwicklungsverläufe, je nach Fre-quenz der Datenerhebung mehr oder weni-ger kurzfristig, abgebildet und verfolgt wer-den können, auf deren Grundlage Feedbackfür die Lehrperson aber auch die Kinderselbst abgeleitet werden kann. Dabei wirdvor allem die individuelle Bezugsnorm alsVergleichsmaßstab zur Abschätzung von Er-folgen herangezogen, also die eigene Ent-wicklung im Vergleich zu einem früherenZeitpunkt anstatt des sozialen Vergleichsmit anderen Schülerinnen und Schülern(Rheinberg, 2001).

Da Monitoring-Verfahren regelmäßig imschulischen Alltag eingesetzt werden sol-len, ist die Gewährleistung der diagnosti-schen Nebengütekriterien der Nützlichkeit,Praktikabilität sowie Ökonomie von ent-scheidender Bedeutung. Den aktuellen Dis-kurs zur Verlaufsdiagnostik zusammenfas-send, lassen sich überdies weitere Forde-rungen an verlaufsdiagnostische Verfahrenstellen, welche in erster Linie auf ihre psy-chometrische Güte bezogen sind (u. a.Fuchs, 2004; Voß, 2014; Voß, Sikora &Hartke, 2017; Wilbert, 2014; Wilbert & Lin-nemann, 2011):

Das Instrument muss den psychometri-–schen Eigenschaften der Statusdiagnos-tik entsprechen. Die Güte eines Verfah-rens wird zu einem festen Zeitpunkt ge-prüft. Es wird hierzu die Höhe der Ob-jektivität, Reliabilität und Validität ge-schätzt.Das Instrument muss den psychometri-–schen Eigenschaften der Verlaufsmes-

sung genügen und auch änderungssen-sibel den Entwicklungsverlauf darstel-len.Das Instrument muss ökonomisch in der–schulischen Praxis einsetzbar sein undden schulischen Unterricht positiv be-einflussen. Diese Anforderung lässt sichnur in quasiexperimentaler Forschungim Feld nachprüfen.

Da der SDQ hinsichtlich seiner statusdiag-nostischen Eignung bereits hinlänglich un-tersucht wurde, steht insbesondere derzweite Punkt im Fokus dieses Artikels. Dreinotwendige Voraussetzungen müssen dabeigelten, damit die Skalierung einer Lernver-laufsdiagnostik angemessen ist (Wilbert,2014). Die erste Voraussetzung ist, dassauch bei wiederholten Messungen stets das-selbe homogene Konstrukt gemessen wird.Weiterhin wird vorausgesetzt, dass der wie-derholt eingesetzte Test jeweils die gleicheSchwierigkeit aufweist und faire Schätzun-gen der untersuchten Schülerinnen undSchüler ermöglicht. Schließlich ist zu zei-gen, dass die Tests änderungssensibel sindund der Verlauf aller gemessenen Schüler-daten dargestellt werden kann (Klauer,2014). Um diese drei Voraussetzungen zuerfüllen, schlagen Wilbert und Linnemann(2011) explizit für die Verlaufsdiagnostik ei-ne Skalierung nach der Item ResponseTheory (IRT) vor. Nach dieser Theorie wirddie latente Personeneigenschaft bei derAuswertung der Tests berücksichtigt. Diesgeschieht einerseits durch die Ausprägungder Person auf der latenten Eigenschaft (Per-sonenparameter) und andererseits anhandder Schwierigkeit der Aufgabe (Itemschwie-rigkeit). Die Wahrscheinlichkeit der Lösungeiner Testaufgabe steht mit den beiden Pa-rametern in einer psychologisch plausiblenprobabilistischen Beziehung (Rost, 2004).Für dieses Raschmodell sind notwendigeVoraussetzungen zur Modellgültigkeit, dassdie Eindimensionalität der Skala und diestichprobeninvariante Anordnung der Itemsnach ihrer Schwierigkeit gegeben sind. Erstwenn diese Annahmen gelten, ist der Sum-

Page 4: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

22 Stefan Voß & Markus Gebhardt

menwert aussagekräftig hinsichtlich desAntwortverhaltens der getesteten Personen.Damit die Veränderung der Summenwerteauf eine Veränderung des untersuchtenMerkmals zurückgeführt werden kann, müs-sen die zu den einzelnen Messzeitpunkteneingesetzten Tests nicht nur dasselbe Kon-strukt erfassen, sondern zudem über dieZeit messinvariant sein (Gebhardt, Heine,Zeuch & Förster, 2015; Klauer, 2014).

Lernverlaufsmessung imUnterschied zurVerhaltensverlaufsmessung

Diese Verlaufsmessung ist in Deutschlandvor allem im Bereich der akademischenLeistungsdiagnostik bekannt (u. a. Klauer,2006; Hasselhorn, Schneider & Trautwein,2014) und spielt jüngst auch im Bereich deremotional-sozialen Entwicklung eine mar-kante Rolle (Casale, Hennemann, Huber &Grosche, 2015; Wiedebusch & Petermann,2011). Während hinsichtlich der Lernver-laufsmessung das jeweils unterrichtete Cur-riculum die entscheidenden Inhalte vorgibt,bezüglich derer alle Schülerinnen undSchüler angehalten sind, sich über die Zeitzu verbessern, sind zu erreichende Ziele imBereich des Verhaltens nicht schulorganisa-torisch geregelt, sondern ergeben sich inerster Linie kontextuell-situativ. Ob ein Ver-halten angemessen oder als störend erlebtwird, kann nur jeweils subjektiv, bezogenauf spezifische schulische Situationen so-wie vor dem Hintergrund von unterschied-lichen Variablen bezüglich der Klassensi-tuation und Lehrperson entschieden wer-den. Im Rahmen der Schule ist vor allemdas Verhalten von Relevanz, welches in di-rekter Verbindung zum Lernerfolg der Kin-der steht. Daher geht es vor allem um dieErfassung des Arbeits- und Sozialverhaltensin der Klasse. Ziel ist, möglichst frühzeitignegative Verhaltenstendenzen auszuma-chen, um adäquate Maßnahmen einzulei-ten, die einer ungünstigen Entwicklung ent-gegenwirken. Die besondere Betonung derfrühen Förderung emotional-sozialer Kom-

petenzen zur Prävention zukünftiger mani-fester und damit meist nur schwer als auchkostenintensiv handhabbarer Störungen istbereits vielfach im Bereich präventionsbe-zogener Forschung diskutiert und akzeptiert(u. a. Beelmann, 2008; Beelmann & Lösel,2007; Brezinka, 2003; Garner, 2010; Wie-debusch & Petermann, 2011). Hierzu ist einregelmäßiger Einsatz von Instrumenten zurStatus- sowie Verlaufsdiagnostik angezeigt(Wiedebusch & Petermann, 2011). Aktuellmangelt es an Instrumenten, die ein Monito-ring des Verhaltens über die Zeit reliabel er-möglichen. Es erscheint sinnvoll, verfügbareVerfahren dahingehend zu prüfen.

Der Strength and DifficultiesQuestionnaire

Zur Diagnostik von Verhaltensstörungenwird eine multimodale sowie multiinfor-mante Vorgehensweise empfohlen (Ame-lang & Zilinski, 2004; Döpfner & Peter-mann, 2008). Neben standardisierten Inter-views, systematischen Verhaltensbeobach-tungen oder psychologischen Testverfahrensind Rating-Verfahren zur Beurteilung desVerhaltens gängig. Da sie in der Regel öko-nomisch durchführbar sind, haben Rating-Verfahren großen Zuspruch. Beim Verhal-tens-Rating wird ein Verhalten nicht direkterfasst, sondern retrospektiv, in der Regelüber einen festgesetzten Zeitraum externbeurteilt (Döpfner & Petermann, 2008).Zwar wird stellenweise die Verzerrung derErgebnisse durch sozial erwünschtes Ant-wortverhalten moniert (Beelmann & Raabe,2007), dennoch weisen Ratings in der Regeleine hohe Objektivität auf.

Es gibt verschiedene Ratingverfahren zurEinschätzung der emotional-sozialen Situa-tion von Kindern und Jugendlichen, vonwelchen die Child Behavior Checklist(CBCL; Achenbach, 1991) als die wohl be-kannteste wie auch bedeutsamste angese-hen wird (Stone, Otten, Engels, Vermulst &Janssens, 2010). Neben der CBCL hat je-doch der SDQ (Goodman, 1997, 2001) inden letzten Jahrzehnten zunehmend an Be-

Page 5: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

23Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern

deutung gewonnen. Dies liegt vor allem da-rin begründet, dass er mit vergleichsweisewenigen Items Aussagen hinsichtlich desVerhaltens von Kindern und Jugendlichenim Alter von vier bis 16 Jahren zu ermögli-chen versucht. Er wurde als Screeninginstru-ment entwickelt und besteht aus fünf Di-mensionen. Jede der Dimensionen Emotio-nale Probleme, Verhaltensprobleme, Hy-peraktivität, Verhaltensprobleme mitGleichaltrigen sowie Prosoziales Verhaltenbesteht aus fünf Items. Der Anwender bzw.die Anwenderin bewertet rückwirkend fürdie vorangegangenen sechs Monate, das je-weilige Item durch Auswählen einer der Ka-tegorien „nicht zutreffend“, „teilweise zu-treffend“ oder „eindeutig zutreffend“.

Die fünf Dimensionen sind in den ver-schiedenen Ländernormierungen mittels ex-plorativer und konfirmatorischer Faktoren-analysen bestätigt worden (u. a. Koglin, Bar-quero, Mayer, Scheithauer & Petermann,2007; Lohbeck, Schultheiß, Petermann &Petermann, 2015). Es gibt aber auch eineStudie, welche zeigt, dass die Aufteilung indie drei Dimensionen internalisierendesund externalisierendes sowie prosozialesVerhalten ebenfalls möglich ist (Goodman,Lamping & Ploubidis, 2010). Des Weiterenhat sich eine Annahme eines Bi-Faktormo-dells als reliabel erwiesen, welches nebenden 5 Dimensionen einen generellen Pro-blemfaktor sowie einen Faktor zum proso-zialen Verhalten zugrunde legt (Kóbor, Ta-kács & Urbán, 2013).

Als wichtigster Wert wird der Gesamt-problemwert des SDQ angesehen, der sichals Summe aus den Dimensionen Emotiona-le Probleme, Verhaltensprobleme, Hyperak-tivität und Verhaltensprobleme mit Gleich-altrigen ergibt. Für diesen Wert liegen inter-nationale Normen vor, die eine Klassifikati-on in eine der Kategorien „normal“, „grenz-wertig“ oder „auffällig“ erlauben.

Neben einer Version für Lehrkräfte exis-tieren auch Auskunftsbögen für Eltern oderdie betroffenen Kinder selbst, bei denen ge-ringfügige Adaptionen vorgenommen wur-den.

Während die CBCL ein sehr umfassen-des Bild über Störungen im emotional-so-zialen Bereich eines Kindes oder Jugendli-chen ergibt, ist der SDQ als ein Screening-instrument zur Identifikation von Problem-feldern als auch Ressourcen in diesem Feldzu verstehen, welchem im Verdachtsfall dif-ferenzierte Diagnoseprozesse nachgeschal-tet werden sollten, um so zu einem umfas-senderen sowie reliableren Bild zu gelan-gen.

Fragestellung

Der SDQ ist ein sehr verbreitetes Sreening-instrument, welches in den verschiedenenKlassenstufen der Grundschule häufig ver-wendet wird und an dessen Gesamtpro-blemwert pädagogische und schulrelevanteEntscheidungen gefällt werden. Das Zieldieses Beitrages ist es, zu analysieren, in-wieweit sich der SDQ zur Verlaufsmessungeignet. Anhand einer deutschen Gesamt-stichprobe (kleinstädtisch) im Längsschnittvon Klasse 1 bis 4 sollen die psychometri-schen Kriterien des SDQ Gesamtproblem-wertes dargestellt werden. Es ergeben sichfolgende Fragen:1. Wie fallen die interne Konsistenz und

die Interkorrelation des Gesamtproblem-wertes zu den Klassenstufen 1 bis 4 aus?

2. Kann der Gesamtproblemwert messin-variant über vier Messzeitpunkte erfasstwerden und entspricht er den Anforde-rungen des Raschmodells?

3. Verändert sich der Gesamtproblemwertüber die Zeit und welchen Einfluss hathierbei das Geschlecht?

Methode

Stichprobe

Zur Untersuchung der Fragestellung wur-den Lehrereinschätzungen anhand des SDQfür einen gesamten Einschulungsjahrgangüber den Zeitraum der ersten vier Jahre inder Grundschule, jeweils zum Ende des

Page 6: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

24 Stefan Voß & Markus Gebhardt

Schuljahres erhoben. Der SDQ wurde zu al-len Messzeitpunkten von jeweils derGrundschullehrkraft ausgefüllt, welche alsKlassenlehrkraft in der Klasse unterrichtete.Insgesamt handelte es sich um 17 Personen.Der Stichprobenumfang der Kinder über dieMesszeitpunkte variiert (Gründe: Zu- undWegzüge, Umschulungen von Kindern, ver-einzelte Elternverweigerungen, nicht aus-wertbare Daten aufgrund fehlender Anga-ben). Die deutliche Zunahme des Stichpro-benumfangs vom ersten zum zweiten Erhe-bungszeitpunkt erklärt sich durch einen Da-tenausfall in drei Klassen. Vergleicht manjedoch die Werte für diese Kinder mit de-nen der Gesamtstichprobe zu den nachfol-genden Testzeitpunkten, ergeben sich kei-nerlei Abweichungen, sodass hier keine sys-tematischen Verzerrungen zu erwartensind.

Zur Übersicht über die Stichprobe sinddie Angaben zu der untersuchten Kohortesowie Mittelwerte in den Hauptskalen desSDQ Tabelle 1 zu entnehmen.

Die empirischen Richtwerte der Nor-mierung für den SDQ weisen 80 % als ver-haltensunauffällige, 10 % als grenzwertigeund 10 % als auffällige Personen aus(Goodman, 2001; Koglin et al., 2007). Diehier vorliegenden Verteilungen ähneln derdeutschen Norm des SDQ (Koglin, et al,2007). Dort wird der höchste Wert der Ka-tegorie „normal“ mit 13 und der Kategorie„grenzwertig“ mit 17 Punkten im Gesamt-problemwert angegeben, Werte darübergelten als „auffällig“. In der hier untersuch-ten Stichprobe liegt die obere Grenze bei

11 (MZP 1), 12 (MZP 2 und 3) bzw. 14Punkten (MZP 4) für die Kategorie „nor-mal“. Der Wert 15 Punkte markiert zum ers-ten Messzeitpunkt die obere Grenze der Ka-tegorie „grenzwertig“, für die Messzeit-punkte 2 und 3 ist dies der Wert 16 Punkte,für den vierten Messzeitpunkt 18 Punkte.

Vorgehen

Die Analysen werden mit dem Statistikpro-gramm R (R Core Team, 2013) mithilfe desPakets pairwise (Heine, 2014) durchgeführt.Hierbei wird die Methode der explizitenBerechnung der Itemparameter im Ra-schmodell durch den paarweisen Itemver-gleich (Choppin, 1968; Wright & Masters,1982) angewendet. Diese Methode eignetsich insbesondere zur Bestimmung derstichprobeninvarianten Itemparameter fürdie Kalibrierung eines gegebenen Itempools(Choppin, 1968). Der pairwise-Schätzer eig-net sich auch bei kleinen Stichproben oderDatensätzen mit fehlenden Werten (Wright& Masters, 1982; Heine & Tarnai, 2015),wie es in der vorliegenden Stichprobe derFall ist.

Zuerst wird die Messinvarianz über dievier Zeitpunkte mittels des grafischen Mo-delltests geprüft. Dann werden die Itempa-rameter über alle vier Messzeitpunkte be-rechnet (Rost, 2004) und die Passung desModells zu allen Messzeitpunkten mittelsMean-Square-Fit-Statistiken (Infit und Outfit)bestimmt.

Die Personenparameter werden für diejeweiligen Messzeitpunkte mittels der

Tabelle 1: Deskriptive Angaben zur Stichprobe

N Anteil Mädchen

N (%)

Alter M (SD)

SDQ Gesamt-problemwert

M (SD)

SDQ Prosozialesverhalten M (SD)

Klasse 1 289 159 (55.0) 7;7 (0;3) 6.92 (5.84) 8.37 (2.82)

Klasse 2 342 179 (52.3) 8;8 (0;4) 7.10 (6.46) 8.00 (2.02)

Klasse 3 370 189 (51.1) 9;8 (0;4) 7.02 (6.26) 8.25 (1.94)

Klasse 4 375 195 (52.0) 10;8 (0;4) 8.51 (7.10) 7.48 (2.39)

Page 7: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

25Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern

Weighted-Maximum-Likelihood-Methode(WLE; Warm, 1989) geschätzt. Für die ge-meinsamen Itemparameter werden jeweilsdie punktbiserialen Korrelationen mit demSkalenwert (WLE-Schätzer) als Trennschärfefür den jeweiligen Messzeitpunkt berichtet.

Die Analyse der Verläufe über die Zeiterfolgt anhand eines hierarchisch-linearenModells (HLM, Bryk & Raudenbush, 1992;Level 1 Zeitebene, Level 2 Schülerebene),da dieses eine genauere Schätzung im Um-gang mit Missings erzielt, als es bspw. eineANOVA mit Messwiederholung ermöglicht.Im Rahmen der ersten Ebene wird die Ent-wicklung des SDQ über die vier Klassenstu-fen betrachtet. Die anhand des Raschmo-dells geschätzten Personenparameter hin-sichtlich des Gesamtproblemwerts des SDQbilden dabei die abhängige Variable, wäh-rend die Angabe der Klassenstufe als unab-hängige Variable dient (zentriert auf das En-de der ersten Klassenstufe). Auf der zweitenEbene wird das schülerspezifische Ge-schlecht berücksichtigt, da verschiedeneStudien hier auf Unterschiede zwischenJungen und Mädchen hinweisen (Costelloat el., 2003; Ihle & Esser, 2008; Petermann,2005).

Ergebnisse

Reliabilität

Die interne Konsistenz des SDQ Gesamt-problemwertes (aMZP1 = .87, aMZP2 = .90,aMZP3 = .90, aMZP4 = .90) und der Skala Pro-soziales Verhalten (aMZP1 = .72, aMZP2 =

.80, aMZP3 = .81, aMZP4 = .87) ist über allevier Messzeitpunkte zufriedenstellend.

Die Interkorrelationsmatrix der SkalaProsoziales Verhalten über die vier Mess-zeitpunkte weist mittlere Zusammenhängeauf. Insgesamt erzeugen die Daten eineSimplexstruktur (je näher die Messzeitpunk-te bei einander liegen, desto höher derKennwert und umgekehrt). Für den Gesamt-problemwert ergeben sich ähnliche Ergeb-nisse, jedoch liegen die Werte deutlich hö-her (vgl. Tabelle 2). Der Gesamtproblem-wert fällt somit über die Zeit stabiler aus alsdie Skala Prosoziales Verhalten. Nachfol-gende Analysen sind ausschließlich auf denGesamtproblemwert beschränkt.

Analysen zur Eignung für dieVerlaufsmessung

Um eine Verlaufsmessung zu entwickeln istes notwendig, eine Skala mit einem latentenKonstrukt für einen längeren Entwicklungs-zeitraum zu konstruieren. Daher wurde derSDQ Gesamtproblemwert mit 20 Items ge-wählt. In der vorliegenden Studie wurdendie Kategorien „teilweise zutreffend“ und„eindeutig zutreffend“ hierbei zusammen-genommen, denn ein teilweises Auftreteneines Störverhaltens kann von ungeschultenLehrkräften als eine Abweichung vomWunschzustand bewertet werden. Die ur-sprüngliche Kodierung führte in den vorlie-genden Daten zu dem Problem, dass einzel-ne Ausprägungen bei den Items nur sehrselten oder gar nicht angekreuzt wurden.Häufig wurde die Mittelkategorie „teilweisezutreffend“ kaum verwendet. Des Weiteren

Tabelle 2: Interkorrelation der Daten der vier Messzeitpunkte nach Pearson

Prosoziales Verhalten Gesamtproblemwert

Kl. 1 Kl. 2 Kl. 3 Kl. 4 Kl. 1 Kl. 2 Kl. 3 Kl. 4

Kl. 1 1 .44 .45 .38 1 .69 .63 .58

Kl. 2 1 .42 .53 1 .70 .65

Kl. 3 1 .65 1 .77

Kl. 4 1 1

Page 8: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

26 Stefan Voß & Markus Gebhardt

könnten bei einer Betrachtung des SDQ alsVerlaufsmessung Items mit mehreren Kate-gorien zu Interpretationsschwierigkeitendes Summenwerts führen.

Insbesondere für die Messung des Ver-laufs ist es wichtig, dass sich die Itempara-meter über die Messzeitpunkte als konstant,d. h. messinvariant über die Zeit erweisen.Um dies zu prüfen, wurden die Itempara-meter für den jeweiligen Messzeitpunkt be-rechnet und im Rahmen eines grafischenModelltests jeweils an der X- und Y-Achseabgetragen (Abbildung 1). Wenn die Item-parameter über die Messzeitpunkte kon-stant sind, verlaufen sie entlang der Winkel-

halbierenden. Die Konfidenzintervalle(95 %) werden anhand der Ellipsen ange-deutet.

Insgesamt kann man die Itemparameterals annähernd konstant betrachten. In Ab-bildung 1 ist der grafische Modelltest zwi-schen jeweils zwei Messzeitpunkten darge-stellt. Nur wenige Items haben zwischenden Messzeitpunkten kleinere Abweichun-gen (Klasse 1 zu 2: „Unruhig“, „Unglück-lich“, „Zappelig“, „Bedacht“; Klasse 2 zu 3:„Konzentration“, „Wutanfälle“; Klasse 3 zu4 „Beliebtheit“, „Gehänselt“; Klasse 1 zu 4:„Unruhig“, „Zappelig“, „Einzelgänger“,„Gehänselt“). Hier urteilen die Lehrkräfte

Abbildung 1: Analysen zur Messinvarianz zu den Messzeitpunkten 1 bis 4 in der Skala SDQ Gesamt-problemwert

Page 9: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

27Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern

über die verschiedenen Klassenstufen leichtunterschiedlich (Differential Item Functio-ning), dennoch erscheint es gerechtfertigt,die Itemparameter zu den verschiedenenMesszeitpunkten als konstant zu betrach-ten.

Raschmodell über vierMesszeitpunkte

Um den Gesamtproblemwert weiter zu prü-fen, wurden für alle Items dieser Skala eineindimensionales Raschmodell für alle vierMesszeitpunkte gleichzeitig berechnet undanschließend die Personenparameter für diejeweiligen Messzeitpunkte geschätzt (Rost,2004, S. 287 ff.). Zur Prüfung des Raschmo-

dells nach lokalen Modellverletzungen(d. h. Verletzungen auf Itemebene) werdendie Mean-Square-Fit-Statistiken Infit- undOutfit-Wert herangezogen. Diese solltennicht signifikant von ihrem Erwartungswert1 abweichen (Wertebereich zwischen 0.7und 1.5; Linacre, 2002).

In den vorliegenden Analysen ergabensich für alle vier Messzeitpunkte zufrieden-stellende Infit- und Outfit-Werte. Ausnah-men hierbei bilden die Items „Einzelgänger“und „Kopfschmerzen“, die zum ersten Mess-zeitpunkt einen Outfit-Wert von 1.55 auf-weisen, sowie das Item „Kontakt zu Erwach-sen“, welches zu jedem Messzeitpunkt ei-nen Outfit-Wert über 1.6 erreicht. GemäßLinacre (2002) sind jedoch Modellverletzun-

Tabelle 3: Items mit Itemparametern und Trennschärfe geordnet nach den Itemparametern

Erläuterungen: VP – Verhaltensprobleme; EP – Emotionale Probleme; VPG – Verhaltensprobleme mitGleichaltrigen; HA – Hyperaktivität

Item Subskala Itemparameter (WLE)

Trennschärfe

Klasse 1 Klasse 2 Klasse 3 Klasse 4

Stehlen VP 3.59 .17 .25 .24 .27

Unglücklich EP 1.14 .49 .5 .45 .46

Wird gehänselt VPG 1.06 .36 .46 .55 .56

Lügen VP 0.79 .43 .41 .53 .56

Wutanfälle VP 0.76 .44 .55 .58 .56

Freunde VPG 0.46 .49 .51 .54 .43

Ängste EP 0.26 .41 .44 .40 .53

Sorgen EP 0.22 .50 .54 .49 .51

Kopfschmerzen EP 0.04 .37 .43 .42 .45

Kontakt Erw. VPG -0.06 .28 .37 .39 .45

Einzelgänger VPG -0.07 .43 .44 .43 .39

Folgsam VP -0.12 .56 .56 .60 .66

Nervosität EP -0.15 .50 .62 .49 .55

Streit VP -0.27 .61 .58 .60 .65

Zappelig HA -0.34 .64 .62 .61 .61

Beliebtheit VPG -0.80 .65 .65 .66 .67

Unruhig HA -0.80 .64 .65 .61 .64

Konzentration HA -1.73 .65 .71 .64 .69

Bedacht HA -1.98 .73 .70 .67 .70

Ablenkbarkeit HA -2.02 .66 .68 .66 .66

Page 10: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

28 Stefan Voß & Markus Gebhardt

gen der Outfit-Werte weniger bedeutsam alses die der Infit-Statistiken wären.

In Tabelle 3 sind die Itemparameternach Schwierigkeit geordnet und die punkt-biseriale Korrelation des Items mit demWLE-Schätzer des Gesamtproblemwertesder jeweiligen Klassenstufen dargestellt. Eszeigt sich, dass die Items „Ablenkbarkeit“oder „Bedacht“ zu den leichten, d. h. häufigvon den Lehrkräften als zutreffend gewähl-ten Items gehören, „Stehlen“ ist mit Abstanddas schwierigste, d.h. am seltensten als zu-treffend angegebene Item. Die punktbiseria-le Korrelation kann im Raschmodell alsTrennschärfe betrachtet werden. Die Kenn-werte können – bis auf Ausnahme des Items„Stehlen“ (zu hohe Schwierigkeit) – als zu-friedenstellend eingeschätzt werden. Auffäl-lig ist der Mangel an Items in einem Schwie-rigkeitsbereich von 1.0 bis 3.7. Die Itemsder ursprünglichen Dimensionen des SDQverteilen sich anhand der Itemschwierigkeitgleichmäßig. Eine Ausnahme ist die ur-sprüngliche Dimension Hyeraktivität (HA),welche ausschließlich sehr leichte Items be-inhaltet.

Die Verteilung derPersonenparameter

Die Verteilung der Personenparameter imVergleich zu den Itemparametern kann an-hand der Person-Item-Map dargestellt wer-den. Nachdem das Item „Kontakt zu Er-wachsen“ einen schlechten Modellfit zu al-len Messzeitpunkten aufwies, wurde für dieBerechnung der Personenwerte ein Modellunter Ausschluss dieses Items berechnet.Um die Entwicklung über die Zeit abzubil-den, wurden die Itemparameter zum Endeder ersten Klasse auch für die Schätzung derPersonenparameter bis zum Ende der Klasse4 zugrunde gelegt. In Abbildung 2 sind diePersonenparameter als Histogramme darge-stellt, welche den Itemparametern gegen-übergestellt werden. Hierbei zeigt sich, dassder Großteil der Personen vor allem unter-halb des Nullpunktes angesiedelt ist und dieVerteilung der Daten, optisch beurteilt, Abbildung 2: Person-Item-Map für die Messzeitpunkte 1 bis 4

Page 11: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

29Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern

recht stabil bleibt. Besonders auffällig ist,dass es insbesondere an Items mangelt, de-ren Messbereich sich über diejenigen Kin-der erstreckt, die sich im unteren (unauffäl-ligen) Bereich der Verteilung befinden.

Mehrebenenmodell zur Veränderungüber die Zeit

Zur Analyse der Veränderung der SDQ-Da-ten über die Zeit wurde ein Mehrebenen-modell über die zuvor anhand des Ra-schmodells ermittelten Personenparameter(WLEs) spezifiziert. Die Ergebnisse der HLMweisen zum Ende der Klasse 1 einen durch-schnittlichen Gesamtproblemwert vonb00 = -1.05 (p < .001) für die untersuchtenJungen aus, mit einem mittleren Anstieg fürebendiese Gruppe von b10 = 0.16 je Schul-jahr (p < .001, d = 0.18 ± 0.04). Das Ge-schlecht der Kinder hat einen signifikantenEinfluss auf den Problemwert zum Ende derersten Klasse zum Vorteil der Mädchen(b01 = -0.69, p < .001, d = -0.77 ± 0.18),nicht aber auf den Anstieg über die Schul-jahre. Die Zufallseffekte weisen weitereschülerspezifische Unterschiede im Niveauund Anstieg des SDQ aus, die im Rahmendes gerechneten Modells nicht erklärt wer-

den konnten. Die Ergebnisse des Mehrebe-nenmodells sind in Tabelle 4 zusammenge-fasst.

Modelliert man die Verläufe im SDQüber die einzelnen Messzeitpunkte, wirddeutlich, dass es unterschiedliche Anstie-ge zwischen den Klassenstufen gibt. Wäh-rend vom Ende der ersten zum Ende derzweiten Klasse (b10 = 0.30, p < .01,d = 0.38 ± 0.13) sowie vom Ende der drit-ten zum Ende der vierten Klasse(b10 = 0.28, p< .01, d= 0.31 ± 0.11) Än-derungen im Sinne eines signifikant vonnull verschiedenen Anstiegs festzuhaltensind, bleiben die SDQ-Daten vom Ende derzweiten bis zum Ende der dritten Klasse sta-bil (b10 = 0.02, p > .05).

Diskussion

Der SDQ ist ein weit verbreitetes Screening-instrument, für welches im Rahmen diverserStudien die psychometrische Güte bereitsnachgewiesen werden konnte (Döpfner &Petermann, 2008; Koglin et al., 2007; Loh-beck et al., 2015). Auch durch die vorlie-gende Studie konnte gezeigt werden, dassder SDQ Gesamtproblemwert über die vier

Tabelle 4: Ergebnisse des random-coefficient-Modells zur Analyse des SDQ Gesamtproblemwerts(auf Basis der ermittelten WLEs) über die Zeit

Erläuterung: *** p < .001

Feste Effekte b (SE) t df d

Modell für den intercept b0i

SDQ Niveau, b00 -1.05 (0.13)*** -7.94 427 -1.16 ± 0.14

weiblich, b01 -0.69 (0.17)*** -3.99 427 -0.77 ± 0.18

Modell für den slope b1i

SDQ Anstieg, b10 0.16 (0.04)*** 3.67 427 0.18 ± 0.04

weiblich, b11 -0.11 (0.06) -1.80 427

Zufallseffekte Varianz c2 df

Niveau u0i 2.11*** 1471.78 382

Anstieg u1i 0.13*** 598.12 382

Level-1-Fehler eij 0.81

Devianzstatistik = 4725.03, df = 4

Page 12: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

30 Stefan Voß & Markus Gebhardt

Messzeitpunkte jeweils zum Ende der Klas-senstufen 1 bis 4 reliable Werte liefert. Fürdie Skala Prosoziales Verhalten mit ihrenfünf Items ergeben sich erwartungsgemäßgeringere Werte hinsichtlich der internenKonsistenz. Die Kennwerte zur internenKonsistenz, Normierungswerte und Korrela-tionen fielen über die Jahrgangsstufen ähn-lich hoch aus wie in der Forschungsliteraturbeschrieben (z. B. Lohbeck et al., 2015; Ro-thenberger, Becker, Erhart, Wille, Ravens-Sieberer & die BELLA-Arbeitsgruppe, 2008).

Im Gegensatz zu seiner statusdiagnosti-schen Eignung fehlt es an Forschungsbeiträ-gen, die die Güte des SDQ zum Einsatz alsMonitoring untersuchen. In der Analyse derverlaufsdiagnostischen Eignung des SDQlag ein weiteres Ziel des vorliegenden Bei-trags. Da die Skala Prosoziales Verhaltennur wenige Items aufweist und im SDQnicht mit den anderen Dimensionen ver-rechnet wird, wurde bei den weiteren Ana-lysen auf die Betrachtung dieser Skala Ver-halten verzichtet.

Nach Zusammenlegung der Kategorien„teilweise zutreffend“ und „eindeutig zutref-fend“ erfüllte der SDQ Gesamtproblemwertdie Anforderungen des Raschmodells weit-gehend und fiel über die vier Messzeitpunk-te grundlegend messinvariant aus. Geringe-re Abweichungen im grafischen Modelltestsind vor allem zwischen den ZeitpunktenEnde Klasse 1 zu Ende Klasse 2 festzustel-len. Dies kann dahingehend interpretiertwerden, dass die Lehrkräfte ihre Schülerin-nen und Schüler hinsichtlich einzelnerItems offenbar mit leicht veränderten Be-zugsrahmen sehen und bewerten. Aus ent-wicklungspsychologischer Sichtweise ist ei-ne Veränderung des Bezugsrahmens dahin-gehend nachvollziehbar, da von einemKind einer höheren Klassenstufe ein ande-res Verhalten als von einer Erstklässlerinbzw. einem Erstklässler erwartet wird. Ins-besondere werden in der ersten Klasse Ar-beitstechniken und Unterrichtsverhaltengrundgelegt und eingeübt, die für die höhe-ren Klassenstufen vorausgesetzt werden. Einveränderter Bezugsrahmen für das von der

Lehrperson wahrgenommene Verhalten vonKlasse 3 zu 4 ist vor dem Hintergrund ein-leuchtend, dass die Grundschulzeit inMecklenburg-Vorpommern mit der viertenKlasse endet und die Schulkarriere mit Klas-se 5 in der Regionalen Schule fortgesetztwird. In diesem Zusammenhang könnte ei-ne „verschärfte“ Verhaltensbeurteilungdurch die Lehrperson, wie sie sich hier ab-bildet, im Sinne einer Eignungsprüfung fürdie „neue Schule“ aufgefasst werden.

Das Item „Kontakt zu Erwachsen“ wurdeaufgrund ungünstiger Fit-Werte im Rahmender Raschmodellierung des Gesamtpro-blemwertes als ungeeignet eingestuft undaus weiteren Analysen ausgeschlossen.Dies ist auch theoretisch nachvollziehbar,da der SDQ Gesamtproblemwert in derLehrkraftversion internalisierende oder ex-ternalisierende Verhaltensauffälligkeiten imKlassenzimmer messen soll. Offenbar fälltes Lehrkräften schwer, dieses Item zu be-werten, zumal es in diesem Setting wenigervon Bedeutung ist als im außerschulischenBereich. Dies spiegelt sich in der vorhande-nen Datenlage, so gibt es deutliche Unter-schiede zwischen dem Item und dem Ge-samtwert, das Item scheint eine andere Di-mension abweichenden Verhaltens zu er-fassen. Dass einzelne Items zu einer un-günstigen Modellpassung führen und ent-sprechend eine Überarbeitung des SDQ an-gezeigt scheint, konstatieren bereits andereForschergruppen (u. a. Lohbeck et al.,2015). Weitere Fit-Statistiken einzelnerItems in der vorliegenden Untersuchung(„Einzelgänger“ und „Kopfschmerzen“) fie-len lediglich zum ersten Messzeitpunkt eherungünstig aus. Diese Modellverletzungenerscheinen nicht so erheblich, als dass einVergleich der Entwicklung über die Zeitnicht gerechtfertigt wäre. Eine weitere Ver-wendung dieser Items unter verlaufsdiag-nostischer Perspektive ist somit unbedenk-lich. Daher wurden in einem gemeinsamenModell die Personenparameter des jeweili-gen Messzeitpunktes aus den gemeinsamenItemparametern über alle Messzeitpunktegebildet (Rost, 2004).

Page 13: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

31Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern

Zur Analyse der Eignung des SDQ alsVerlaufsinstrument ist zudem die Auswer-tung der Person-Item–Map der Daten vonRelevanz. Hier erkennt man, dass der SDQeine Diskrepanz zwischen dem Messbe-reich der Items und den ermittelten Perso-nenparametern aufweist. Dieses ungünstige„Targeting“ liegt darin begründet, dass derSDQ ein Screeninginstrument darstellt, wasvor allem einen differenzierteren Blick imRandbereich einer Verteilung erzielen soll.Da es sich bei der verwendeten Untersu-chungsgruppe nicht um eine klinischeStichprobe handelt, ist davon auszugehen,dass viele Personen sich auch nicht in die-sem Randbereich bewegen und derenMerkmale somit nicht hinreichend durchdie Itemparameter abgedeckt sind. Verfolgtman das Ziel, mit dem SDQ Verläufe zu er-mitteln, sollten zusätzliche Items entwi-ckelt werden, die eine Beurteilung von Per-sonen im unteren Bereich (leichte Verhal-tensauffälligkeiten) ermöglichen. Die Er-gänzung von weiteren Items ist durch diehierarchische Stufung der Items durch dieItemparameter dank des Raschmodellsmöglich. Eine Erweiterung um Items sollteinsbesondere auch im Schwierigkeitsbe-reich zwischen WLE = 1.17 („unglück-lich“) und WLE = 3.71 („stehlen“) erfolgen,um einen differenzierte Einordnung derKinder im oberen Randbereich zu ermögli-chen.

Im Rahmen von Mehrebenenmodellie-rungen wurden die Veränderungen der Per-sonenparameter der Schülerinnen undSchüler analysiert. Die untersuchten Kinderwurden von ihren Lehrkräften über dieMesszeitpunkte durchaus unterschiedlichhinsichtlich ihres Verhaltens eingeschätzt.So gibt es signifikante Anstiege in den an-hand des Raschmodells geschätzten Perso-nenparametern über die Zeit, die vor allemim Übergang von Ende Klasse 1 zu 2 sowieKlasse 3 zu 4 zu begründen sind. Insgesamterscheint eine klassen- bzw. altersstufenab-hängige Normierung des SDQ angezeigt.

Deutliche Geschlechtsunterschiede imVerhalten zeigen sich zum Ende der ersten

Klasse. Hier weisen Jungen deutlich un-günstigere Verhaltenstendenzen auf. DieserBefund ist konform zu Angaben aus aner-kannten Prävalenzstudien zum Thema Ver-haltensauffälligkeiten im Kindes- und Ju-gendalter (z. B. Ihle & Esser, 2008; Peter-mann, 2005). Die hier dargelegte Befundla-ge zeigt jedoch keine geschlechtsspezifi-schen Unterschiede im Anstieg an, d. h. dieMädchen und Jungen der untersuchtenStichprobe entwickelten sich hier gleich.

Die Fortentwicklung eines Verlaufsdiag-nostikums aus dem SDQ erscheint vielver-sprechend. Um dies zu erreichen, sollte dasVerfahren um „leichtere“ Items ergänzt wer-den, die vor allem eine Erfassung von Ver-haltensausprägungen im Grenzbereich zurVerhaltensauffälligkeit erlauben. Diese Itemserlauben somit ein besseres Targeting in un-ausgelesenen Stichproben. Gleichzeitig soll-te sichergestellt sein, dass diese Items nur ei-nen geringen Aufwand bei der Bewertungbesitzen (Casale et al., 2015). Dies sind vorallem Items, die klar umschrieben und ope-rationalisiert sind und sich auf weniger kom-plexe Sachverhalte beziehen, z. B. „Redetoft dazwischen“ oder „Meldet sich häufig imUnterricht“. Damit würde der SDQ zudemum den Bereich des Arbeitsverhaltens erwei-tert, was für einen Einsatz im schulischenSetting sinnvoll erscheint. Ebenso solltenItems im oberen Messbereich ergänzt wer-den, die eine differenziertere Beurteilungvon Kindern mit deutlichen Anzeichen fürVerhaltensauffälligkeiten ermöglichen, z. B.„Beleidigt Mitschülerinnen und Mitschüler“oder „Stört den Unterricht“.

Mit den vorgeschlagenen Überarbei-tungshinweisen ist der SDQ grundsätzlichals ein Instrument für wiederholendes Mes-sen geeignet, allerdings in größeren Zeit-spannen, z. B. viertel- bzw. halbjährlich.Für einen hochfrequenten Einsatz zur tägli-chen oder wöchentlichen Abschätzung derVerhaltensentwicklung wie es im Bereichdes Lernens durch Curriculum-based Mea-surements (u. a. Deno, 1985; Voß & Hartke,2014) erreicht werden soll, eignet sich derSDQ nicht. Dafür hat der SDQ einen zu

Page 14: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

32 Stefan Voß & Markus Gebhardt

breiten Bezugsrahmen und zu wenigeItems. Für hochfrequente Messungen eig-nen sich sog. direkte Verhaltensbeurteilun-gen (Direct Behavior Ratings; u. a. Christ,Riley-Tillman & Chafouleas, 2009; Volpe &Fabiano, 2013). In diesen bewerten dieLehrkräfte ein Item eines Verhaltensaspek-tes mit 10 Kategorien wiederkehrend undprüfen so kurzfristige Verhaltensänderun-gen in diesem Bereich. Daher ist eine Kom-bination aus einer gröberen, aber breiterenMessung mit dem SDQ und einer feineren,aber spezifischen Messung mittels DirektBehavior Ratings im Unterricht empfehlens-wert.

Die Analysen der Studie konzentrierensich auf die Auswertung als Verlaufsmes-sung. Die Dimensionalität des SDQ, dieMehrebenenstruktur in der Skalierung unddie Ratingqualität der Lehrkräfte wurdenicht berücksichtigt bzw. nicht überprüft.Daher kann der Einfluss des Raters und des-sen Bias nicht festgestellt werden, hierfürbenötigt man weitere Studien. Aufgrund deslongitudinalen Designs ist die Stichprobeauch nur auf eine kleinere Stadt beschränkt.Daher kann es auch leichter zu Stichpro-beneffekten kommen im Vergleich zu gro-ßen Normierungsstudien.

Literaturverzeichnis

Achenbach, T. M. (1991). Manual for theChild Behavior Checklist/4–18 and 1991Profile. Burlington, VT: University of Ver-mont, Department of Psychiatry.

Amelang, M. & Zielinski, W. (2004). Psycho-logische Diagnostik und Intervention.Berlin: Springer.

Beelmann, A. & Lösel, F. (2007). Entwick-lungsbezogene Prävention dissozialerVerhaltensprobleme: Eine Meta-Analysezur Effektivität sozialer Kompetenztrai-nings. In W. von Suchodoletz (Hrsg.), Prä-vention von Entwicklungsstörungen (S.235 – 258). Göttingen: Hogrefe.

Beelmann, A. & Raabe, T. (2007). DissozialesVerhalten von Kindern und Jugendlichen.Göttingen: Hogrefe.

Beelmann, A. (2008). Förderung sozialer Kom-petenzen im Kindergartenalter: Program-me, Methoden, Evaluation. EmpirischePädagogik, 22, 160 – 177.

Bell, B. & Cowie, B. (2001). Formative Assess-ment and Science Education (Vol. 12).Dordrecht, Boston: Kluwer Academic.

Brezinka, V. (2003). Zur Evaluation von Prä-ventivinterventionen für Kinder mit Ver-haltensstörungen. Kindheit und Entwick-lung, 12, 71-83.

Bryk, A. S. & Raudenbush, S. W. (1992). Hie-rarchical Linear Models: Applications andData Analysis Methods (Vol. 1). NewburyPark: Sage.

Casale, G., Hennemann, T., Huber, C. & Gro-sche, M. (2015). Testgütekriterien derVerlaufsdiagnostik von Schülerverhaltenim Förderschwerpunkt Emotionale undsoziale Entwicklung. HeilpädagogischeForschung, 41, 37-54.

Choppin, B. (1968). Item Bank using Sample-free Calibration. Nature, 219, 870-872.

Christ, T. J., Riley-Tillman, T. C. & Chafouleas,S. M. (2009). Foundation for the Develop-ment and Use of Direct Behavior Rating(DBR) to Assess and Evaluate Student Be-havior. Assessment for Effective Interven-tion, 34, 201-213.

Costello, E. J., Egger, H. & Angold, A. (2005).10-Year Research Update Review: TheEpidemiology of Child and AdolescentPsychiatric Disorders: I. Methods and Pu-blic Health Burden. Journal of the Ameri-can Academy of Child & Adolescent Psy-chiatry, 44, 972–986.

Costello, E. J., Mustillo, S., Erkanli, A., Keeler,G. & Angold, A. (2003). Prevalence andDevelopment of Psychiatric Disorders inChildhood and Adolescence. Archives ofGeneral Psychiatry, 60, 837–844.

Deno, S. L. (1985). Curriculum-Based Measu-rement: The Emerging Alternative. Excep-tional Children, 52, 219–232.

Page 15: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

33Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern

Döpfner, M. & Petermann, F. (2008). Diagnos-tik psychischer Störungen. Göttingen: Ho-grefe.

Frostad, P. & Pijl, S. J. (2007). Does BeingFriendly Help in Making Friends? Europe-an Journal of Special Needs Education,22, 15-30.

Fuchs, L. S. (2004). The Past, Present, and Fu-ture of Curriculum-Based MeasurementResearch. School Psychology Review, 33,188–192.

Garner, P. W. (2010). Emotional Competenceand its Influences on Teaching and Lear-ning. Educational Psychology Review,22, 297–321

Gebhardt, M., Heine, J-H., Zeuch, N. & Förs-ter, N. (2015). Lernverlaufsdiagnostik imMathematikunterricht der zweiten Klasse.Raschanalysen zur Adaptation eines Test-verfahrens für den Einsatz in inklusivenKlassen. Empirische Sonderpädagogik, 3,206-222.

Goodman, A., Lamping, D. L. & Ploubidis,G. B. (2010). When to Use Broader Inter-nalising and Externalising Subscales inste-ad of the Hypothesised Five Subscales onthe Strengths and Difficulties Question-naire (SDQ). Journal of Abnormal ChildPsychology, 38, 1179-1191.

Goodman, R. (1997). The Strengths and Diffi-culties Questionnaire: A Research Note.Journal of Child Psychology and Psychia-try, 38, 581–586.

Goodman, R. (2001). Psychometric Propertiesof the Strengths and Difficulties Question-naire. Journal of the American Academyof Child and Adolescent Psychiatry, 40,1337–1345.

Goodman, R., Iervolino, A.C., Collishaw, S.,Pickles, A. & Maughan, B. (2007). See-mingly Minor Changes to a QuestionnaireCan Make a Big Difference to the MeanScores: A Cautionary Tale. Social Psychia-try and Psychiatric Epidemiology, 42,322–327.

Hartke, B. (2005). Schulische Prävention –welche Maßnahmen haben sich bewährt?In S. Ellinger & M. Wittrock (Hrsg.), Son-derpädagogik in der Regelschule. Kon-

zepte, Forschung, Praxis (S. 11-37). Stutt-gart: Kohlhammer.

Hasselhorn, M., Schneider, W. & Trautwein,U. (Hrsg.). (2014). Lernverlaufsdiagnostik.Göttingen: Hogrefe.

Heine, J.-H. & Tarnai, C. (2015). PairwiseRasch Model Item Parameter Recoveryunder Sparse Data Condtions. Psychologi-cal Test and Assessment Modeling 57(1),3-36.

Heine, J.-H. (2014). pairwise: Rasch ModelParameters by Pairwise Algorithm [Com-puter software]. Munich. Zugriff am01.02.2016. Verfügbar unter http://cran.r-project.org/web/packages/pairwise/in-dex.html (R package version 0.2.5).

Huber, C. (2006). Soziale Integration in derSchule?! Marburg: Tectum.

Ihle, W. & Esser, G. (2008). Epidemiologiepsychischer Störungen des Kindes- undJugendalters. In: B. Gasteiger-Klicpera, H.Julius & C. Klicpera (Hrsg.), Sonderpäda-gogik der sozialen und emotionalen Ent-wicklung (Band 3 des Handbuchs Sonder-pädagogik, S. 49-62). Göttingen: Hogrefe.

Klauer, K. J. (2006). Erfassung des Lernfort-schritts durch curriculumbasierte Mes-sung. Heilpädagogische Forschung,32(1), 16–26.

Klauer, K. J. (2014). Formative Leistungsdiag-nostik: Historischer Hintergrund und Wei-terentwicklung zur Lernverlaufsdiagnos-tik. In M. Hasselhorn, W. Schneider & U.Trautwein, U. (Hrsg.), Lernverlaufsdiag-nostik (Tests & Trends, NF Bd. 12., S. 1-17). Göttingen: Hogrefe.

Kóbor, A., Takács, Á., & Urbán, R. (2013). TheBifactor Model of the Strengths and Diffi-culties Questionnaire. European Journalof Psychological Assessment, 29, 299-307.

Koglin, U., Barquero, B., Mayer, H., Scheit-hauer, H. & Petermann, F. (2007). Deut-sche Version des Strenghts and Difficul-ties Questionnaire (SDQ-Deu): Psycho-metrische Qualität der Lehrer-/Erzieherin-nenversion für Kindergartenkinder. Diag-nostica, 53, 175-183.

Page 16: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

34 Stefan Voß & Markus Gebhardt

Linacre, J. M. (2002). What do Infit and Outfit,Mean-square and Standardized Mean?Rasch Measurement Transactions, 16,878.

Linderkamp, F. & Grünke, M. (2007). Lern-und Verhaltensstörungen – Genese, Diag-nostik & Intervention. Weinheim: Psycho-logie Verlags Union.

Lohbeck, A., Schultheiß, J., Petermann, F. &Petermann, U. (2015). Die deutscheSelbstbeurteilungsversion des Strengthsand Difficulties Questionnaire (SDQ-Deu-S): Psychometrische Eigenschaften, Fakto-renstruktur und Grenzwerte. Diagnostica,62, 3-33.

Petermann, F. (2005). Zur Epidemiologie psy-chischer Störungen im Kindes- und Ju-gendalter. Eine Bestandsaufnahme. Kind-heit und Entwicklung, 14, 48-57.

Prince, M., Patel, V., Saxena, S., Maj, M., Ma-selko, J., Phillips, M. R. & Rahman, A.(2007) No Health without Mental Health.The Lancet, 370, 859–877.

R Core Team (2013). R: A Language and Envi-ronment for Statistical Computing. RFoundation for Statistical Computing[Computer software]. Vienna, Austria. Re-trieved from http://www.R-project.org.

Reef, J., Diamantopoulou, S., van Meurs, I.,Verhulst, F. C. & van der Ende, J. (2011).Developmental Trajectories of Child toAdolescent Externalizing Behavior andAdult DSM-IV Disorder: Results of a 24-year Longitudinal Study. Social PsychiatryPsychiatric Epidemiology, 46, 1233–1241.

Rheinberg, F. (2001). Bezugsnormen undschulische Leistungsbeurteilung. In F. E.Weinert (Hrsg.), Leistungsmessung inSchulen (S. 59-71). Weinheim: Beltz.

Rost, J. (2004). Lehrbuch Testtheorie – Test-konstruktion. Bern: Huber.

Rothenberger, A., Becker, A., Erhart, M., Wil-le, N., Ravens-Sieberer, U. & die BELLA-Arbeitsgruppe (2008). Psychometric pro-perties of the parent strengths and difficul-ties questionnaire in the general populati-on of German children and adolescents:results of the BELLA study. European

Child & Adolescent Psychiatry, 17, 99-105.

Steinhausen, H.-C. (2010). Psychische Störun-gen bei Kindern und Jugendlichen. Mün-chen: Elsevier.

Stone, L. L., Otten, R., Engels, R. C. M. E., Ver-mulst, A. A. & Janssens, J. M. A. M.(2010). Psychometric Properties of the Pa-rent and Teacher Versions of the Strengthsand Difficulties Questionnaire for 4-to 12-year-olds: A Review. Clinical Child andFamily Psychology Review, 13, 254–274.

Volpe; R. J. & Fabiano, G. A. (2013). Daily Be-havior Report Cards. An Evidence-BasedSystem of Assessment and Intervention.New York, NY: Guilford Press.

Voß, S. & Hartke, B. (2014). Curriculumbasier-te Messverfahren (CBM) als Methode derformativen Leistungsdiagnostik im RTI-Ansatz. In M. Hasselhorn, W. Schneider& U. Trautwein, U. (Hrsg.), Lernverlaufs-diagnostik (Tests & Trends, NF Bd. 12.,S. 83-99). Göttingen: Hogrefe.

Voß, S. (2014). Curriculumbasierte Messver-fahren im mathematischen Erstunterricht– Zur Güte und Anwendbarkeit einerAdaption US-amerikanischer Verfahrenim deutschen Schulsystem. Saarbrücken:SVH.

Voß, S., Sikora, S. & Hartke, B. (2017). Lern-verlaufsdiagnostik als zentrales Elementder Prävention von Rechenschwierigkei-ten. In A. Fritz-Stratmann, G. Ricken & S.Schmidt (Hrsg.), Handbuch Rechen-schwäche (3. Überarb. Aufl., S. 339-355).Weinheim: Beltz.

Warm, T. A. (1989). Weighted Likelihood Esti-mation of Ability in Item Response Theo-ry. Psychometrika, 54, 427–450.

Wiedebusch, S. & Petermann, F. (2011). För-derung sozial-emotionaler Kompetenz inder frühen Kindheit. Kindheit und Ent-wicklung, 20, 209-218.

Wilbert, J. & Linnemann, M. (2011). Kriterienzur Analyse eines Tests zur Lernverlaufs-diagnostik. Empirische Sonderpädagogik,3, 225-242.

Wilbert, J. (2014). Instrumente zur Lernver-laufsmessung: Gütekriterien und Auswer-

Page 17: Monitoring der sozial-emotionalen Situation von … · 2017. 9. 4. · Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern 21 scher Prävention postuliert

35Monitoring der sozial-emotionalen Situation von Grundschülerinnen und Grundschülern

tungsanforderungen In M. Hasselhorn, W.Schneider & U. Trautwein, U. (Hrsg.),Lernverlaufsdiagnostik (Tests & Trends,NF Bd. 12., S. 281-308). Göttingen: Ho-grefe.

Wright, B. D. & Masters, G. N. (1982). RatingScale Analysis. Chicago: MESA Press.

Dr. Stefan VoßUniversität RostockInstitut für SonderpädagogischeEntwicklungsförderung undRehabilitation August-Bebel-Str. 2818051 [email protected]

Erstmalig eingereicht: 16.12.2016Überarbeitung eingereicht: 02.04.2017Angenommen: 11.05.2017