Veränderte Beurteilungskriterien durch KI

In dem von mir und Andreas Giesbert geleiteten Think Tank „Prüfungswesen und Hochschultransformation im Kontext von KI“ haben diese Woche zeitweise 70 Teilnehmende über veränderte Beurteilungskriterien im Kontext von KI diskutiert. Wir waren ehrlich gesagt sehr überrascht über das große Interesse an dieser Sitzung – mich erreichten nach einer LinkedIn-Ankündigung im Voraus sehr viele Anfragen von Menschen, die die Zugangsdaten haben wollten.

Wir haben die zweistündige Sitzung aufgezeichnet und ich habe sie mit noScribe (lokal installiertes KI-Transkriptionstool, dessen großer Fan ich bin) transkribieren lassen. Dieses Transkript habe ich dann (nach Löschung aller Namen) Google Gemini gegeben und darum gebeten, eine Zusammenfassung zu schreiben, die ich wiederum um Fehlendes ergänzt und auch in Teilen umgeschrieben habe. Diese präsentiere ich im Folgenden, verwoben mit meinen eigenen (weiterführenden) Gedanken zur Diskussion.

Isabella Buck präsentierte zunächst ein Beurteilungsraster, das eine AG innerhalb des KI-Think Tanks der Hochschule RheinMain erarbeitet hatte, um dem KI-Einsatz in wissenschaftlichen Arbeiten bei der Beurteilung gerecht zu werden. Ihr Ausgangspunkt war das Prinzip des Constructive Alignment: Beurteilt werden kann nur, was auch gelehrt wurde. Im Kontext von KI bedeutet das: Studierende müssen die Möglichkeit haben, KI-Kompetenzen im Studium zu entwickeln, wenn Lehrende den KI-Einsatz bei wissenschaftlichen Arbeiten beurteilen möchten. Es reicht nicht, KI-Tools einfach nur zu erlauben, sondern die Studierenden müssen lernen, sie sinnvoll und verantwortungsbewusst einzusetzen (Entwicklung von AI Literacy).

Zwei Möglichkeiten wurden für die Beurteilung von KI-gestützten Arbeiten skizziert: die direkte und die indirekte Beurteilung. Die direkte Beurteilung erfordert eine Dokumentation der KI-Nutzung durch die Studierenden und zudem die Festlegung von Kriterien, wodurch genau sich ein sehr guter/guter/befriedigender etc. Einsatz von KI-Tools auszeichnet. Die indirekte Beurteilung hingegen fokussiert auf die Anpassung bestehender Beurteilungskriterien an die neuen Möglichkeiten und Herausforderungen von KI. Auf diese Weise braucht es nicht zwangsläufig die Dokumentation der KI-Nutzung durch die Studierenden.

Die Diskussion drehte sich dann um viele Punkte, konnte jedoch in weiten Teilen nicht zum eigentlichen Kern der Sitzung, veränderten Beurteilungskriterien, vordringen.

  • Verpflichtende KI-Nutzung: Kann KI-Nutzung verpflichtend sein, wenn Hochschulen keinen datenschutzkonformen Zugang bieten? Die rechtliche Perspektive brachte ein Justiziar der FernUni in Hagen ein, der klar sagte, dass man Studierende zum Einsatz von KI verpflichten könne. Schon dieser erste Punkt wurde sehr kontrovers diskutiert, da es im Plenum auch die gegenteilige Meinung gab: Man könne niemanden dazu zwingen, sich bei einem Tool anzumelden, wenn man hier eigene Daten preisgeben muss.
  • Unterschiedliche Beurteilungskriterien: Müssen wir für Studierende mit und ohne KI-Nutzung unterschiedliche Kriterien anwenden? Prüfungsrechtlich ist dies nicht zulässig, da Leistungen vergleichbar sein müssen.
  • Prozess- vs. Produktbeurteilung: Ist es überhaupt erlaubt, den Prozess mit in die Beurteilung einzubeziehen? Bzw. wie kann man dies realisieren, ohne gleichzeitig den Studierenden keine Lerngelegenheiten zu nehmen und ohne auch das für Lernen so wichtige Scheitern zu verhindern?
  • Erlaubnis von KITools: Leider (aus meiner Sicht) streifte die Diskussion immer wieder die Frage, ob der Einsatz von KI-Tools überhaupt erlaubt werden sollte. Hier war ich doch sehr überrascht, da ich dachte, dass wir über dieses Thema schon lange hinweg sind. Manche haben in der Diskussion auch differenziert zwischen KI-Tools zur sprachlichen Überarbeitung wie DeepL Write, grammarly & Co., und textgenerierenden Tools. Für mich sind differenzierte Zulässigkeiten sehr schwierig, da dies m. E. Studierende viel mehr verwirrt als ihnen Orientierung gibt („da steht, ich darf DeepL Write oder LanguageTool nutzen. Ich mag die beiden Tools nicht, sondern möchte meinen Text von ChatGPT Korrektur lesen lassen. Darf ich das dann auch? Oder nicht? Weil eigentlich steht ja da, dass ich ChatGPT nicht verwenden darf“ …). Ich plädiere immer wieder dafür, dass wir Studierende dazu ermutigen sollten, das bestmögliche Produkt zu erzeugen und wenn es heißt, dass ich dafür KI-Tools einsetze, dann ist das eben so. Eine Person brachte einen Vergleich an und meinte: „Ich sage ja auch nicht zu einer Handwerkerin: Reparieren Sie die Waschmaschine, aber nutzen Sie dafür keine Greifzange“. Dazu noch ein Zitat aus dem Transkript: „Bei mir steht im Vordergrund, ein möglichst gutes Ergebnis zu sehen von den Studierenden. Das ist auch ehrlich gesagt, das, was ich von den jungen Leuten erwarte, weil die müssen in der Zukunft eine Menge Probleme lösen, von denen wir heute noch gar nicht wissen, wie wir die lösen sollen. Also das ist sozusagen das, was ich eigentlich als übergeordnetes Ausbildungsziel für meine Studiengänge habe.“
  • Chancengleichheit: Wenn manche Studierende sich bessere Tools leisten können als andere, können Lehrende den Einsatz von KI dann überhaupt mit in die Beurteilung einbeziehen?
  • Dokumentation: Müssen Studierende den Einsatz von KI-Tools dokumentieren, um diesen beurteilbar zu machen? Wer schon öfter Blogbeiträge von mir gelesen hat, weiß, dass ich eine große Kritikerin solcher Dokumentationen bin. Da dieses Thema in letzter Zeit immer wieder aufkommt, habe ich in einem kurzen Video mal anhand meiner eigenen KI-Nutzung dargelegt, weshalb eine genaue Dokumentation häufig gar nicht praktikabel, teilweise sogar problematisch ist.
  • Kompetenzorientierung: Wie können Prüfungen die tatsächlichen Kompetenzen der Studierenden abbilden? Welche Kompetenzen sollen überhaupt mit einer wissenschaftlichen Arbeit entwickelt werden? Und wie können Lehrende Studierenden die Möglichkeit geben, ihre Kompetenzen auch zu zeigen? Hier wurde auch die Bedeutung der Reflexion über die KI-Nutzung betont. Eine Person sagte, dass nur, weil wir jetzt KI haben, nicht plötzlich alle zu Nobelpreis-Anwärter:innen werden. Nur weil jemand KI für eine Aufgabe einsetzt, heißt das lange nicht, dass er:sie auch wirklich die mit der Aufgabe eigentlich verbundene Kompetenzentwicklung durchläuft.
  • Neue Prüfungsformate: Natürlich stand bei diesem Termin auch die wissenschaftliche Arbeit als Prüfungsformat selbst zur Diskussion. Hier gingen die Ansichten stark auseinander, von einer eindeutigen Befürwortung des Abschaffens von Haus- und Abschlussarbeiten hin zur Betonung deren lernförderlichen Effekte und einer Forderung nach einer Anpassung der Aufgabenstellungen. Daneben wurden Portfolios und agile Prüfungsformen als mögliche Lösungen diskutiert. Dazu verweise ich auf dieses Interview, in dem Christiane Wittich ein agiles Konzept vorstellt.
  • Ergänzung von wissenschaftlichen Arbeiten um andere Prüfungsformen: Hier wurden die klassischen Kolloquien oder (kurze) mündliche Prüfungen diskutiert.

Insgesamt war ich am Ende etwas enttäuscht, dass wir nie wirklich zum Kern des Themas vorgedrungen sind, nämlich zur Frage, wie konkret Beurteilungskriterien für wissenschaftliche Arbeiten im KI-Zeitalter aussehen sollten. Gleichzeitig haben wir aber genau das diskutiert, was den Teilnehmenden auf dem Herzen lag – und da sind wir doch immer noch bei den gleichen Fragen, die sich die Hochschulen auch schon Anfang 2023 gestellt haben … Das zeigte sich nicht zuletzt auch daran, dass wir am Ende noch darüber gesprochen haben, dass viele Lehrende immer noch weit von einer AI Literacy entfernt sind und über solche Punkte wie ‚veränderte Aufgabenstellungen‘ gar nicht gesprochen zu werden braucht …