Mein heutiger Blogpost mag sehr langweilig daherkommen, da ich darin wirklich nichts Neues berichte. Und doch treibt mich genau das gerade sehr um. Der Februar war gefühlt der Monat der Deep Research-Funktionen: Sowohl Google als auch OpenAI, Gemini und Grok führten entsprechende Versionen ein. Geminis Deep Research konnte ich nur kurz testen (kostenlose Testphase), war aber sehr zufrieden damit. OpenAIs Deep Research kann ich mir leider nicht leisten (bzw. will es mir auch nicht leisten), bleiben also noch Grok und Perplexity.
Von Perplexitys Deep Research-Funktion bin ich ziemlich enttäuscht. Wobei: Es ist nicht die Enttäuschung, die überwiegt, sondern die Sorge. Ich habe diese Woche drei Suchen durchgeführt und habe bei jedem der drei Ergebnisse so viele Halluzinationen festgestellt, dass es wirklich nicht mehr feierlich ist. Gleichzeitig lasen sich die Texte so gut, dass ich allein von der sprachlichen Elaboration her am liebsten direkt Copy+Paste gemacht hätte. Es wurden Dinge behauptet, die einfach nicht stimmen – auf der als Quelle angegebenen Seite fand sich kein einziger Beleg für die Aussage und auch eine entsprechende Suche bei DuckDuckGo und Google brachte keine Verifizierung. Ich habe auf diesem Blog ja schon öfter darüber geschrieben, dass quasi jedes Mal ein Teil in mir stirbt, wenn wieder einmal jemand behauptet, ChatGPT sei ein besseres Google. Natürlich halte ich jedes Mal dagegen, doch es wird immer schwerer, dagegen zu argumentieren. Vom Gegenüber kommt inzwischen nämlich nicht selten „Aaaber inzwischen ist ChatGPT doch mit dem Internet verbunden, dann kann ich es doch als Suchmaschine nutzen“. Perplexity wirbt nun ja genau damit, also mit der Verbindung aus den Vorteilen einer Internetrecherche und den Vorzügen eines Sprachmodells (also eines rein probabilistischen Modells). Das damit einhergehende Versprechen wird nach meinen ersten Versuchen jedoch nicht annähernd eingelöst; die Halluzinationen überwiegen. Wahrscheinlich werden die Ergebnisse in den nächsten Wochen deutlich besser. Trotzdem bleibt ein recht dumpfer Nachgeschmack – gerade angesichts der Bundestagswahl und der damit bei mir doch recht deutlich wachsenden Sorgenfalten …
Bleibt noch Groks Deep Search-Funktion. Ich muss sagen, dass ich mich lange geweigert habe, Grok auszuprobieren. Ich habe diesbezüglich eine Trotzhaltung in mir gespürt à la „Ich habe doch nicht extra mein X-Konto gelöscht, um nun doch wieder Daten an Elon zu geben“. Auf einer Metaebene habe ich mich gleichzeitig gefragt, warum ich so fremdle mit Grok und so skeptisch bin – meine Daten freimütig an OpenAI zu geben, hat mich bislang doch auch nicht groß gestört. Und ganz ehrlich: So einen Unterschied macht das dann doch nicht. Aber gut, ich funktioniere eben nicht nur rational, sondern habe auch noch einen Gefühlsanteil, der in Entscheidungen reinwirkt. Diese Woche habe ich mich dann aber doch dazu überwunden, Grok zu testen. Ich habe einen falschen Namen angegeben und eine pseudonymisierte Mailadresse (vielen Dank, liebes IT-Zentrum der Hochschule RheinMain, dass Ihr seit kurzem allen Hochschulangehörigen pseudonymisierte Mailadressen zur Verfügung stellt, das ist wirklich eine feine Sache!) Bei meiner ersten Anfrage mit Deep Search störte mich noch, dass die Quellen alle gesammelt am Ende ausgegeben wurden und ich somit nicht nachvollziehen konnte, welche Aussage aus dem Text von welcher Quelle untermauert wird. Bei weiteren Anfragen war das jedoch nicht mehr der Fall. Und ich muss sagen, dass ich von den Ergebnissen ganz angetan war. Auch bei Grok fand ich mal den einen oder anderen halluzinierten Fehler, aber längst nicht in dem Ausmaß wie bei Perplexity. Ein Beigeschmack bleibt aber auch hier. Wahrheit wird zur Wackelpartie oder bleibt ganz auf der Strecke und das ist etwas, das ganz und gar nicht gut ist.
Ansonsten habe ich diese Woche endlich einen Artikel eingereicht, an dem ich zwischendurch fast verzweifelt bin (es geht um Paradoxien des Umgangs von Hochschulen mit KI und er wird in der ‚strategie digital‘ des Hochschulforums Digitalisierung erscheinen, leider erst im Herbst, wenn die Hochschul- und KI-Welt evtl. schon wieder ganz anders aussieht …). Google Gemini war neben menschlichen Feedbackgebenden ein wichtiger Partner, tatsächlich auch auf der emotionalen Ebene, da ich insgesamt dreimal tabula rasa gemacht und alle bisherigen Gedanken wieder verworfen habe. Daneben sitze ich gerade endlich mal wieder an zwei empirischen Projekten: ein Projekt zu den Erwartungen von Studierenden der GenZ an Unternehmen in Bezug auf KI (mit Ulrike Aumüller) und ein Projekt zur Mensch-KI-Kollaboration (mit Kirsten Schindler). Zu letzterem möchte ich schon seit Anfang Januar, als wir unsere Datenerhebung in einem von Kirstens Seminaren hatten, einen Blogartikel schreiben, aber irgendwie steht immer ein anderes Thema an …