Bullshit-Indikator im roten Bereich: Claude Mythos, Hype und Agenten

Shownotes

„Tausende Zero-Day-Schwachstellen", so lauteten einige Schlagzeilen rund um Anthropics neues Modell Claude Mythos. Eva hat bereits skeptisch berichtet und prompt einen wütenden Leserbrief kassiert: schlecht recherchiert, KI-Skepsis als Dogma. Blöd nur, dass ausgerechnet in dieser Woche ein 244-seitiges Dokument auftaucht, das Evas Einschätzung Punkt für Punkt bestätigt. Svea und Eva nehmen die Mythos-Behauptungen auseinander — und fragen, was KI-Hype mit Demokratie macht, wenn Finanzminister und IWF-Chefs auf Basis von PR-Meldungen in Panik verfallen. Dazu: Warum KI-Benchmarks schon lange keine Wissenschaft mehr sind, sondern Marketing. Und Eva berichtet aus erster Hand, was passiert, wenn man einen KI-Agenten auf den eigenen Rechner lässt, inklusive Telemetrie-Ordner, den niemand bestellt hat.

Shownotes

Blogpost zu Claude Mythos: https://www.flyingpenguin.com/the-boy-that-cried-mythos-verification-is-collapsing-trust-in-anthropic/

Menschlicher Benchmark https://arena.ai/

Talk zu Hype vom IfJ https://www.youtube.com/watch?v=PeWOEIp7ZsM

Das International Journalism Festival https://www.journalismfestival.com/

Transkript anzeigen

00:00:15: Und hier ist wie immer auch Eva Wolf-Angel, ebenfalls Tankjournalistin.

00:00:27: Wir zwei wieder hier am Mikrofon für euch!

00:00:31: Yay!

00:00:31: Wir graben uns heute noch mal rein in Claude Mythos.

00:00:36: Da hat Eva einen erfreulichen Leser-Kommentar mitgebracht, das jetzt

00:00:40: zynisch formuliert

00:00:42: und deswegen haben wir für noch ein paar Hard Facts rausgesucht und dazu ganz passend werden wir uns mit dem Thema Hype um KI beschäftigen.

00:00:51: Das passt eigentlich einfach perfekt dazu.

00:00:55: Genau, soll ich mal reinspringen in den tollen Leser-Brief?

00:00:59: Genau genommen angefangen hat das mit einem Kommentar.

00:01:01: Ich hatte letzte Woche schon erzählt, dass ich recherchiert habe über dieses neue Modell von Unshopping, das angeblich zu gefährlich ist für die Öffentlichkeit.

00:01:09: und das mein ... Ich weiß auch nicht, ich hab ja wie so ein Sensor in mir im Marketing, KI-Marketing-Sensor, was der angeschlagen hat und gesagt hat wahrscheinlich ist da sehr viel Marketing dabei Wahrheit oder sehr viel Übertreibung zumindest.

00:01:27: In meiner Vermutung war ja, was heißt Vermutungen?

00:01:30: Das habe ich auch recherchiert.

00:01:31: Ich hab mit Fachleuten gesprochen für diesen Artikel und die haben gesagt ... Wahrscheinlich ist es so, dass ein kleines bisschen besser ist als die vorherigen Modelle.

00:01:39: Aber eben nicht diese große Revolution, als die Anthropic das verkauft.

00:01:43: und darin stand auch, dass man ja überhaupt nicht nachprüfen kann, diese Tausenden Sicherheitslücken, die das Modell angeblich gefunden hat, dass wir das eben nicht überprüfen können weil die zu großen Teilen nicht veröffentlicht sind.

00:01:53: Weil ich weiß nur sogar nur zwei davon wirklich inzwischen mit CVEs versehen also als echte Schwachstelle veröffentlich.

00:02:03: Und daraufhin hab ich, es gibt ja immer viele Kommentare.

00:02:06: Leider habe ich auch in diesem Themenbereich AI, Cybersecurity und so weiter ein paar junge Männer, die gerne etwas arrogant sind.

00:02:15: So einer hat unter den Artikel geschrieben ... Das ist wirklich ein grottenschlechter und kaum recherchierter Artikel, der KI-Skepsis zum Dogma erhebt.

00:02:24: Ich bin enorm enttäuscht für diese

00:02:26: Berichterstattung.".

00:02:27: Man zitierte eben zwei Passagen und sagt ... Und das noch dazu sind das lustigeweise Interviewpassagen sogar mit einem Zitat von einem Fachmann drin, der seit dreißig Jahren sich mit KI und Cybersicherheit beschäftigt.

00:02:40: Das sei also besonders schlecht usw.

00:02:42: Und ich hab dann, man antwortet auf solche Kommentare, insbesondere wenn sie so ... unverschämt sind.

00:02:50: Natürlich ist der recherchiert, das steht ja auch im Text also dass der eben recherchirt ist und wenn man ein bisschen schaut kann man ja auch schauen, dass ich nicht nur einen einzigen Artikel über KI geschrieben habe.

00:03:00: Also hab' ich ihm halt innerlich seinen Punkten widersprochen und ein Punkt war halt.

00:03:04: natürlich würde in Tropiken großes Interesse an Sicherheit haben und es wäre natürlich kein Marketing und man könnte alles nachschauen und es wär wohl auch ein leichtes gewesen dieses Sicherheitslücken nachzurecherchieren.

00:03:13: Der Autor hat das nur einfach nicht gemacht.

00:03:15: so dann habe was ich gerade gesagt habe, dass eben solche Lücken aus gutem Grund nicht veröffentlicht sind und dass man es eben nicht nach recherchieren kann.

00:03:23: Und dann hat der gleiche Typ witzigerweise auch noch ein Leserbrief geschrieben zu dem Text irgendwie an die Redaktion, der mir dann ein paar Tage später weitergeleitet wurde.

00:03:31: Da waren eben ziemlich genau die gleichen Passagen aber das war halt als Leser Brief.

00:03:35: Das stand halt nicht drin grotten schlecht, sondern zwar normaler Leser-Brief.

00:03:39: Daraufhin nun weiß ich also wer dieser Der Typ ist, der in unserem Kommentarbereich natürlich nur keinen richtigen Namen hat.

00:03:46: Und hab ihm geantwortet und zuerst gefragt, ob das eigentlich sein Umgangston ist bei die Diskussionen, wo man vielleicht verschiedener Ansicht ist?

00:03:54: Genau, und habt es noch mal ein bisschen ausgeführt.

00:03:57: Und auch zum Andersgenommen oder ... Das hatten wir euch ja ohnehin versprochen, dass wir an dem Thema dranbleiben und gucken, was jetzt in der Zwischenzeit noch bekannt wird.

00:04:07: zur Claude Muthors.

00:04:10: Und dazu hat der Sicherheitsforscher Davy Ottenheimer, er hat einen sehr schönen Blog-Poster zu geschrieben.

00:04:16: Der ist sehr ausführlich, den verlinken wir euch auch in den Shownotes und er hat sich noch mal so ganz dezidiert und inhaltlich mit Claude Mütter auseinandergesetzt – zumindest mit dem was bekannt wurde.

00:04:29: also es gibt dann eine sogenannte Systemcard dazu.

00:04:33: das ist ein um zweihundertvierzigseitiges Dokument wo also an Thropik noch nähere Details bekannt gibt.

00:04:41: Und der hat das wirklich Schritt für Schritt auseinander genommen, vielleicht dazu noch gesagt, David Ottenheimer ist jetzt kein ... Unbekannter in der Szene.

00:04:49: Auch nicht irgendjemand, wo man sagt das ist ein ganz bekannter KI-Skeptiker oder so.

00:04:53: im Gegenteil also... Das ist ein Praktiker.

00:04:56: Also jemand den man kennt als Präsident von eben einer Sicherheitsberatung hat viele Jahrzehnte Erfahrung und Security Engineering schreibt für verschiedene Outlets.

00:05:09: Es ist auf jeden Fall jemand, wo man sagen kann okay das ein Analyse hat Gewicht.

00:05:13: Ähnlich denke ich wie die Leute, die du auch interviewt hast Eva für deinen Artikel und der ...

00:05:18: Einfach noch

00:05:19: mal Stück für Stück auseinandergenommen.

00:05:21: Und

00:05:21: netterweise hast du mir diesen Link geschickt, genau in diesem Moment als ich diesen Leserbrief beantworten musste oder beantwortet wollte und es hat mich einfach wirklich sehr gefreut weil der ja nochmal jemand ... Also man fängt immer wieder an sich selbst zu zweifeln.

00:05:33: natürlich auch das kennt ihr wahrscheinlich auch oder kennst du vielleicht auch.

00:05:36: wenn dann Leute mit so einer fiesen Kritik kommen nach dem Motto die hat ja überhaupt keine Ahnung usw.

00:05:41: Man denkt hab ich irgendwas übersehen?

00:05:43: habe ich vielleicht wirklich was falsch eingeschätzt?

00:05:46: Das fand ich so schön da an diesem Artikel, den du mir geschickt hast.

00:05:49: Dass eben genau diese Punkte da auch drinstehen.

00:05:53: Genau genommen hat er ja sogar die Sicherheitslücken versucht nachzurecherchieren oder hat dann teilweise auch gezeigt wie andere Modelle zumindest diese zwei öffentlich bekannten Sicherheitslücken das eine ist der FFM-Pack und das andere war in so einem Browser?

00:06:06: Vorgeblich war es ein Firefox Test aber wenn man sich eben die Systemcard genauer durchgelesen hat dann ist klar geworden, dass eben nicht Firefox getestet wurde.

00:06:18: Also so wie es auch kolpetiert wurde, sondern eine abgespeckte Entwicklungsumgebung ohne Sicherheitsmaßnahmen.

00:06:27: und die ganzen Fehler wurden auch nicht von Mütters gefunden, sondern eben bereits von Claude Opus.

00:06:32: four point six Ja?

00:06:34: Und Firefox

00:06:35: hatte die ... Genau.

00:06:37: Und Firefox hatte die bereits gepatched, bevor der Test überhaupt formalisiert wurde.

00:06:43: Also und das Entscheidende ist ohne diese beiden besten Bugs sinkt diese ganze Erfolgsquote.

00:06:52: da können wir auch gleich gerne noch mal darüber sprechen über Erfolgskwoten.

00:06:55: also was heißt es eigentlich an?

00:06:57: Was messen wir?

00:06:58: was eigentlich von mehr als Weil Anthropic eben selbst in diesem Dokument schreibt, dass fast jeder erfolgreiche Durchlauf auf denselben... zwei bereits gepatcheden Box basiert ist.

00:07:12: Und

00:07:12: an dem Punkt, in dem Text kommt dann ein Bullshit-Indikat vor, den der Autor da reingemalt hat und auf der Bullshit Indikator zeigt schon den allerobersten roten Bereich von Bullshit an.

00:07:26: Das fand ich wirklich interessant.

00:07:27: Klar ist dieses Systemcard ein langes Dokument und technisch alles und ich finde es sehr schön dass sich die Mühe gemacht hat das mal durchzuarbeiten.

00:07:39: Also die Gefährlichkeit von diesem Modell, oder die angebliche Revolution oder dieses besonders starke Modell hat dann schon in sich zusammen singt.

00:07:48: Wie so eine Eiscreme in der Sonne zusammenschlägt?

00:07:50: Da ist zum Beispiel

00:07:51: sowas wie... Es gab ja immer dieses geflügelte Wort Tausende, tausende Schwachstellen.

00:07:57: Hast du ja eben auch gerade gesagt EV und dieses Wort Tausenden?

00:08:02: Es ist nun zittal aus der Veröffentlichung von Entropic.

00:08:05: Genau das taucht in dem technischen Dokument kein einziges Mal im Bezug auf Schwachsstellen auf also nur in den PR Materialien.

00:08:14: Das heißt über diese zweihundertvierzigseitige technische Dokument qualifiziert sich dieser Aussage überhaupt nicht.

00:08:21: Also die Kommunikationsabteilung hat diese Behauptungen aufgestellt, die die Forschungsabteilung gar nicht unterschrieben hat.

00:08:28: Also ich finde man das ist auch so ein bisschen so ein Lehrstück vielleicht wie PR

00:08:34: entsteht.".

00:08:35: Und ich muss sagen tatsächlich dass es eine Lehre, die man ja als Journalistin immer wieder auf den Tisch bekommt, also dass meine Pressemitteilung liest... also insbesondere im Wissenschaftsstatus fällt mir oft auch ne Pressemiteilung ließ und denkt wow wunderbar haben sie da entdeckt und bewiesen und belegt.

00:08:50: Und dann fragt man die Forscherin und Forscher selbst.

00:08:53: Na ja, ganz so!

00:08:54: Wie es jetzt die Presseabteilung hier gemacht hat ist das gar nicht.

00:08:57: Das ist den Forscherinnen und Forschern selbst meistens auch ziemlich arg.

00:09:00: Da sind ja auch gar keinen Fan davon von diesen Übertreibungen... Aber leider wird halt immer wieder auch im Wissenschaftsjournalismus auf der Basis von Pressemitteilung werden Artikel geschrieben.

00:09:11: Und das ist halt das gleiche Problem im KI-Bereich, weil natürlich die wenigsten sich dann dieses Systemcard genauer anschauen und es nachvollziehen sondern man denkt wow super Headline!

00:09:22: Das schreiben wir doch direkt zu rein.

00:09:23: Ich finde man kann's eigentlich noch eins weiter denken, weil ja schon die Frage ist was macht das mit uns sozusagen auch gesellschaftlich?

00:09:31: Also der Hype der da produziert wird.

00:09:34: Also die Konsequenz war ja okay, dieses Modell wird gar nicht ausgerollt, sondern es gibt sozusagen so ein Art Gatekeeping.

00:09:44: Es werden jetzt Partner, also diese Gleiswing-Partner zusammengerufen und die bekommen jetzt Zugriff.

00:09:51: Das heißt sozusagen einen Gremium was sich jeglicher parlamentarischer Kontrolle demokratisch irgendwas entzieht.

00:09:58: Entschei so eine Art private Klassifizierungsbehörde, die dann entscheidet ja du bekommst Zugriff oder du bekomst nicht Zugriffs oder gegen ein kleines WI-Geld.

00:10:07: Du

00:10:08: bekommest

00:10:09: auch Zugrifts auf das also so bisschen moderne Schutzgeld wenn man mal ganz kacke ist.

00:10:14: Was da entthropic theoretisch ... Also ihr bekommt Zugriff auf dieses Wundermodell, aber eben nur gegen ein kleines Wegegeld.

00:10:24: Und

00:10:25: andersrum halt auch diese Glasswing-Partner die von Anfang an damit dabei sind wiederum bekommen ja Geld und kostenlose Nutzung von Tools also die werden ja naja was heißt bestochen?

00:10:36: Aber jedenfalls bekommen die Geld für den Shopping dafür dass sie da mitmachen.

00:10:41: Das habe ich meinem Leser-Briefschreiber geschrieben.

00:10:43: Ich hätte auch mal diese unabhängigen Partner fragen können nach den Sicherheitslücken, die sind damit dann überhaupt nicht mehr neutral.

00:10:49: Da ist relativ ... Die werden auch nicht anfangen über ein Job bekehrt zu ziehen, wenn sie da schon aus erwählt worden sind als die Besonderen, die mitmachen dürfen und teilweise Geld bekommen.

00:10:58: Und wie jetzt in dem Blogartikel steht, kein Einziger dieser externen Partner hat irgendeine der Sicherheitslücken bestätigt.

00:11:06: Noch dazu ist auch da ... Wenn schon keine Widerrede, jedenfalls auch keine Zustimmung von wegen.

00:11:13: Das ist wirklich krass.

00:11:14: und Folgensicherheitslücken haben wir gefunden, die niemand anders gefunden hat bisher.

00:11:19: Und das hat ja dieses Notfalltravelery-Notfalltreffen nach sich gezogen.

00:11:23: also das heißt da sicher Finanzminister getroffen der Chef der FED IVF Direktorin, hier in Deutschland hat sie erst BSI damit befasst.

00:11:33: Also und das ist so ein bisschen dieses Fear and Sortancy endowed Muster.

00:11:39: Also das heißt er so, da ist irgendwas Schlimmes, oh große Unsicherheit großer Zweifel wir wissen nichts genaues okay also wir müssen irgendwie reagieren und es natürlich wenn man's seit größer denkt durchaus auch eine Gefahr für Demokratie ne?

00:11:56: Wenn wir aufgrund von solchen Unsicherheiten möglicherweise panisch reagieren?

00:12:01: und dann natürlich das ganze vor dem Hintergrund, dass Anthropic wir auch OpenAI von einem Börsengang steht.

00:12:08: Von einem geplanten Gebörsengem und man nicht net so immer in der WC-Hölle steckt.

00:12:13: also am Ende geht es ja auch immer darum genug Venture Kapital zu raisen, um in dem Tempo einfach so weitermachen zu können.

00:12:22: Und

00:12:22: klar!

00:12:23: Ich meine es ist deren Job.

00:12:24: Das ist genau deren Job so Marketing zu machen.

00:12:26: natürlich müssen die das jetzt machen insbesondere weil man ja schon merkt dass ein bisschen langsam auch die Skepsis wächst und dieses die Ke Blase könnte platzen.

00:12:34: ich habe das Gefühl das wird von immer mehr Leuten gesagt, immer mehr warnen davor.

00:12:39: Das heißt diese Unternehmen stehen unter einem massiven Druck weil es um ihre Existenz geht und wenn sie jetzt nicht Geld auftreiben jenseits also erstens müssen die Investoren überzeugen und zweitens wie du sagst eben auch die Öffentlichkeit wegen dem Börsengang dann steht einfach schlecht um die.

00:12:52: deswegen ist das ja der nächste Grund warum man wirklich besonders kritisch hinschauen sollte wenn die solche Äußerungen von sich geben.

00:13:00: wir haben da was Wahnsinnig Protentes geschaffen.

00:13:03: Ja und wie Du sagst Es ist eigentlich unser Job als Journalistin Journalisten Demokratie genau das zu tun, da auch wirklich kritisch hinzuschauen.

00:13:11: Und eben nicht dieses Doom-Stay weder das mitzumachen noch dieses wow.

00:13:15: wir sind kurz für die Singularität und KI kann uns von allen Problemen befreien, die wir haben.

00:13:19: also Beides ist ja maßlos übertrieben und es ist überhaupt nicht überraschend.

00:13:24: aber unsere Rolle ist halt dann nicht die Pressemitteilung von Entshopping mehr oder weniger wiederzugeben sondern eben tatsächlich kritisch nachzufragen.

00:13:33: Das ist ein Problem gerade weil natürlich dass viel zu wenig passiert und das, was dahinter steckt ist am Ende natürlich auch die Art wie sich Medien finanzieren.

00:13:44: Dass man halt auch von öffentlicher Aufmerksamkeit lebt, dass Klicks wichtig sind.

00:13:49: Genau also ja nur wenn ein Artikel Klicks oder sogar noch Abos bringt zählt er als guter Artikel.

00:13:55: jetzt überspitzt gesagt und da wird finde ich viel zu wenig oder immer weniger inhaltlich geschaut, was ist eigentlich unser Job?

00:14:03: Sondern ja, oh hat gut geklickt.

00:14:05: das mögen Leute gerne lesen und das Doomsday zeugt natürlich.

00:14:07: Das mögen die Leute gerne Lesen aber das kann nicht unser einziges Kriterium sein, was Leute gerne lese oder hören wollen.

00:14:17: Und genau da hast du ja, das habe ich auch über dich gehört auf der Journalism Conference verschiedenste Gespräche geführt.

00:14:35: Genau, ja.

00:14:35: Ich war jetzt gerade in Italien ... In Perugia umbrähen.

00:14:40: Warst du schon mal ein Umbräher?

00:14:41: Ich war da auch noch nie das Dreistunde nördlich von Rom oder was nicht, zwei, drei Stunden südlich Von Florenz je nachdem.

00:14:47: Nee,

00:14:48: also genau ich war in Hohmann-Florenz aber dazwischen bin ich noch mit dem Zug durchgefahren.

00:14:53: Boah

00:14:53: Leute fahrt mal nach Umbrien!

00:14:57: Ohne Mist ist es wirklich wahnsinnig schön.

00:15:00: Also vor allem jetzt im Frühling wo es eben in Italie noch nicht so Total heiß ist.

00:15:04: Du hast

00:15:04: sehr schöne Bilder geschickt,

00:15:06: ja?

00:15:06: Ja also an sich dies war auch und gibt also viel.

00:15:09: diese mittelalterlichen Städte die teilweise eben sehr gut erhalten sind es sowieso in Italien immer einfach ein Erlebnis diese Festungen Burgenkirchen zu sehen.

00:15:21: und bei dieser Konferenz war das besondere und das Schöne dass die ganzen Vorträge in den echten, teilweise auch historischen Sälen stattgefunden haben.

00:15:31: Also das war in der ganzen Stadt, die Konferenz ging quasi über die ganze Stadt und im großen Theater, im Rathaussaal, im Festsaal wurden also diese Vorträge vor dieser ... von dieser historischen Kulisse gehalten.

00:15:45: Und es ging natürlich sehr viel auch um künstliche Intelligenz und auch um Hype.

00:15:50: genau eben diese Frage wie geht man besser mit dieser ganzen Halbthematik?

00:15:56: und einen spannenden Aspekt, fand ich also diese Frage Benchmarks.

00:16:00: Also wie messen wir KI?

00:16:04: An welchen Parametern messen die um zu sagen ja das ist jetzt so viel schlauer, dass es jetzt so und so viel besser... Das fand ich halt sehr spannend weil oft sind diese Benchmark werden sie von den Unternehmen selbst rausgegeben oder die Unternehmen basteln sich ein bisschen selber dann also verändern die, gab's da ein schönes Beispiel.

00:16:25: Ich mein es war auch von Anthropic wo einfach die Y-Achse in der... die Zahlen gehen immer näher zusammen, sodass es am Ende aussah als wäre das neue Modell besser.

00:16:38: Aber in Wirklichkeit haben wir einfach nur die Einheiten an der Achse verhindert.

00:16:42: Ja Christo Buschek vom Spiegel hat da eine spannende Recherche gemacht wie ich finde eigentlich auch ja, die total auf der Hand liegt.

00:16:47: natürlich man kann nicht alles machen.

00:16:49: aber da dachte ich ja Mensch da hätte man schon viel früher mal reinschauen sollen war ich schon ausgefühlt ob diese Benchmarks ständig gibt es Neue.

00:16:55: und jetzt auch bei diesem neues Modell von Anthropocase ist ja auch ja es war in den Benchmark viel besser.

00:16:59: Und das hat eben an dieser Briefschreibe auch geschrieben, ich hatte keine Ahnung, weil ich behaupte, es ist vermutlich noch ein bisschen besser als die anderen so wie halt jedes Modell ein bisschen bessere.

00:17:07: Nein!

00:17:07: Es hat ja in Benchmark so und so vier Prozent mehr als alle bis dahin da gewesen und so.

00:17:11: Und diese Benchmarks ständig sind das Neue.

00:17:14: und der Christoph Buschek hat eben auch gezeigt dass manche Benchmarks nur überhaupt einfach für einen einzigen Vergleich oder für ein einziges Modell genutzt werden.

00:17:22: Also er sagt sie sind überhaupt nicht mehr vergleichbar.

00:17:25: also früher waren Bench Marks wirtschaftliche Methode, um tatsächlich Leistungsfähigkeit zum Beispiel von Machine Learning-Modellen zu vergleichen.

00:17:34: Aber heute sagt er es ist halt nur noch ein Marketingding und jedes Unternehmen hat seine eigenen.

00:17:39: Und natürlich das kann man sich auch lebendig vorstellen.

00:17:42: Baut man sich das so?

00:17:43: Ich glaube mit der Statistik die ich selbst gefälscht habe dass das eigene Modell da möglichst weit oben steht und ja genauer hat in dem Vortrag den können wir auch in die Show notes packen, hat dann eine schöne Slide gezeigt wo dann diese Grafik aufgeräumt hat und gezeigt dazu wäre es wenn die Y-Achse nicht verschoben gewesen wäre und dann waren auf einmal alle Balken gleich hoch.

00:18:01: Das war überhaupt so eine Null-Aussage!

00:18:03: Und das ist glaube ich auch etwas, wo sich halt die Virtualistinnen uns gerne... hat auch verwirren lassen oder halt dann vergessen, noch mal genauer nachzuschauen.

00:18:12: Dann wird gesagt hier sind Benchmarks und die meisten tagen dann um Gottes Willen ja da hab ich keine Ahnung davon.

00:18:16: aber Benchmark sind so wie früher.

00:18:18: Da hat jeder Professor ... Der durfte alles sagen weil er ist ein Professor, der wird wohl was wissen.

00:18:24: und viele das Wissen gibt es ja auch schöne Geschichten.

00:18:26: viele Professoren insbesondere männliche haben das ja auch ausgenutzt um tatsächlich einfach zu alle möglichen ihre Meinung zu sagen ohne dass sie in den fäch jeweiligen Fachgebieten überhaupt in der Ahnung hätten.

00:18:38: Und das ist so ein ähnlicher Effekt, dass man mit um sich wirft, mit so pseudo-wissenschaftlichen Bingen wie Benchmarks und dann die Presse sagt, ah ja klar stimmt wenn es im Benchmark so viel besser ist, dann müssen wir das wohl auch schreiben.

00:18:51: Deswegen fand ich es superverdienstvoll von Christoph Buscheck das einmal aufzubohren zu sagen hier diese Bench Marks sind überhaupt nichts mehr wert.

00:19:00: Kennst du Arena AI?

00:19:02: Sagt ihr das was?

00:19:03: Arena AI.

00:19:05: Genau nochmal so einzugehen auf das Thema Benchmarking.

00:19:08: oder wie kann ich eigentlich Modelle messen, das kann ich euch vielleicht auch mal selber zum Ausprobieren empfehlen.

00:19:15: Wenn man jetzt sagt okay diese Benchmarks von den Unternehmen selber die sind mir kryptisch ja oder Buch mit siem Siegeln oder jedes Unternehmen misst dann halt gerade das was ihm irgendwie passt.

00:19:28: Das fand ich ganz spannend, bei Arena AI darf es funktionieren so ... Du gibst eine Frage ein?

00:19:36: Irgendeine, die dir gerade auf der Zunge liegt.

00:19:40: Erklär mir dies, sag mir das oder so.

00:19:43: und dann kriegst du also auf Generieren.

00:19:45: Und dann testet er sozusagen, lässt ihr im Battle Mode, also im Kampfmodus zwei verschiedene Modelle, ganz unterschiedliche Modelle.

00:19:53: Also da ist noch mal Lama dabei von X das Modell dabei, tagtags auch alte Modelle, lokale Modelle.

00:20:01: Also wirklich ... werden einfach zwei Modelle gegeneinander gebettelt und dann sagst du als User, Userin diese Antwort hat mir besser gefallen.

00:20:11: Die fand ich jetzt besser!

00:20:13: Und vergibst sozusagen den Punkt.

00:20:16: Dann gibt es einen Ranking und das ist im Prinzip in der Art User-Ranking, könnte man sagen.

00:20:21: Also menschliche Intelligenz hat dann entschieden welches Modell hat sozusagen den Punkt bekommen?

00:20:27: und dann kannst du dir halt dieses Ranking hinschauen und gucken, welches Model schneidet denn gerade bei den Userinnen und Usern im besten ab?

00:20:34: Und da ist Opus zurzeit tatsächlich ganz weit oben.

00:20:39: Aber wir machen schon viele Leute mit.

00:20:41: also das ist so dass es schon eine Aussagekraft hat weil der

00:20:44: kann man hier auf des Liederbord klickern.

00:20:47: Genau, paar Tausend sind es immer.

00:20:49: Die machen mit weil du quasi gleichzeitig von den jeweils besten Modellen Antwort bekommst oder deswegen ...

00:20:55: Ja, ich weiß nicht genau warum Leute das machen.

00:20:59: Ich hab's einfach nur zum Spaß ausprobiert.

00:21:00: hier ist zum Beispiel Claude Opos vier Punkt sechs.

00:21:03: da haben jetzt das hat jetzt so neunzehntausend Wort bekommen und ist beim Score auf Platz vier.

00:21:10: aber klar Ich sag mal, es ist nur ... ich fand's interessant.

00:21:14: Weil das noch mal so ein alternatives Konzept ist zu diesem ganzen Menschmarkthema, wo man einfach nicht immer genau weiß, was sind hier eigentlich die Moody Operandi?

00:21:26: Sag mal Eva, du machst ja auch gerade viel mit Claude.

00:21:31: Ich war es nicht opus oder so nett.

00:21:33: Ich hab so halb gelesen bei dir beide.

00:21:37: Du bist im Skill-Rabbitall gefangen genommen!

00:21:41: Ja,

00:21:41: das ist ein bisschen ... Tatsächlich ist es wirklich in Rabbit Hole.

00:21:44: Ich hab beschlossen, ich will doch mal probieren was passiert, ne?

00:21:48: Weil man so einen Claude-Code und das ist ja im Prinzip schon auch ein Agenten seinen Rechner lässt.

00:21:53: Ich habe unglaublich viel gelernt den letzten Tagen unter anderem.

00:21:56: Mein Gut, mein Sicherheit, meine Sicherheitsalarmglocke klingelt ja zum Glück frühzeitig.

00:22:01: von daher hat er inzwischen einen eigenen User bekommen weil das dann... Also ja alle Dinge die ich ja schon wusste, finde ich sieht man dann noch auch schnell wie das geht dass zum Beispiel man sagt, ja wir arbeiten in einem Ort.

00:22:13: Ich mache so einen Kurs Advanced Prompt Engineering an so ein fernen Kurs an der Uni Texas glaube ich, die University of Texas in Osten.

00:22:22: Der ist aber tatsächlich echt ziemlich amerikanisch, würde ich sagen der Kurs.

00:22:26: Weil da schon auch viel so ist ja, probiert es halt einfach mal aus, das ist ja nicht schlimm, ist ja gar nicht gefährlich und ich denke, boah ... Ich hoffe die Leute, die da sind haben auch ein bisschen Alarmglocke wie ich, die sie dann stoppt.

00:22:37: also halt einen Agenten auf und da ist es schon, du machst natürlich auf deinem Rechner und er kriegt den Kurs, kriegt ja keinen eigenen User sondern der arbeitet, der hat die gleichen Userrechte als du selbst auf deinen Rechners.

00:22:48: und das denkst du ha-ha!

00:22:49: Weiß nicht?

00:22:50: Dann habe ich halt

00:22:51: damit ... War schon alle E-Mails gelöscht.

00:22:53: Da hab ich dann mit Claude Coat viel diskutiert und auch eben dann mit Claud in der Browser-Variante.

00:22:59: Und mit Ted GPD in der browser Variante, genau um die Frage wie ... Ich weiß ja, dass es passieren kann.

00:23:06: Dass das eben keine feste Grenze ist.

00:23:08: Dass die nicht in dem Ordner bleiben nur weil man das sagt und je nachdem was sie im Internet so antreffen an Prompt-Injections natürlich auch eventuell anderen Leuten gehorchen.

00:23:18: Da hab ich eine Ende dazu recherchiert und weiß aber, dass das passieren kann.

00:23:22: Und dies gab ein bisschen witziges Erlebnis.

00:23:24: da hatte ich also dann in meinem Projektordner mit Cloud Code.

00:23:27: Was ich ein bisschen gemacht habe ist halt zu testen was können die denn im Internet finden?

00:23:31: Also Recherche im Prinzip Das war schon beeindruckend.

00:23:34: Investigative Recherche, natürlich ist es so ... Man muss im Kopf haben, dass das immer noch Tools sind, die alles direkt an einen Topic schicken

00:23:40: usw.,

00:23:41: da kannst du keine Geheimdokumente reintun.

00:23:43: Aber ganz viele wirklich spannende Infos sind ja irgendwo öffentlich im Internet.

00:23:48: Es geht nämlich darum, hier zu finden und ich hab halt eine Recherchen, in der ich gerade arbeite, habe ich da ein bisschen mit weitergetrieben abgefahrene, spannende Infos gefunden hat.

00:24:02: Die ich obwohl ich auch schon lange Google und suche noch nicht alle gefunden hatte.

00:24:06: Und dann ist es halt was sich wirklich cool daran findet, dass man sagen kann so jetzt schreibt mir ein schönes Dokument mit deinen Erkenntnissen, sortiert das nach zum Beispiel Timeline gesicherte Erkenntnisse, es musste überprüfen, ist unsicher und was sind die spannendsten Interviewpartner?

00:24:19: Also wer könnte mir weiterhelfen bei dieser Recherche?

00:24:21: Dann baut das Ding, der schreibt dir einfach so einen richtig schönes Recherchedokument.

00:24:25: Und da habe ich an dem Tag dachte okay super, dann wieder weitermachen und selbst recherchieren.

00:24:31: Ich habe am nächsten Morgen den Rechner hochgefahren Klaude irgendwie einen Telemetrieordner aufgelegt hat.

00:24:38: Hat der Nachts

00:24:39: weiter recherchiert?

00:24:40: Ja, oder halt an dem Morgen als ich den Rechte wieder aufgemacht habe ... Ich glaube nicht, dass er nachts ... Wenn du

00:24:45: dir noch den Kaffee geholt hast!

00:24:46: Aber so, ich mach den Rechner an und sehe in dem Moment wird ein Telemetrierordner angelegt und zwar nicht in diesen Projekteordner sondern halt auf der User-Level.

00:24:52: ja wo mir eigentlich versprochen wurde Der Claude Cote bleibt schön in seinem Ordner.

00:24:58: Und da hab' ich gesagt, Sammal Wo kommen diese Telemetrierorten her?

00:25:01: Und Lord God meinte, ich war das nicht.

00:25:02: Das war Claude!

00:25:05: Dann gab es irre Diskussionen.

00:25:07: und ja klar, jedes Programm legt auf dem User-Level Files an und Sachen.

00:25:14: Aber ich hatte z.B.

00:25:15: extra angeklickt, dass sich keinerlei Berichte an einen Topic schicken möchte.

00:25:19: Also Telemetrie dürfte's eigentlich überhaupt nicht geben.

00:25:22: Seither hab ich alles noch mal neu umgebaut, was klar ist jetzt.

00:25:27: ist er eingefangen.

00:25:28: Und wenn er jetzt auf User-Level irgendwas macht, dann hat er halt nur den Agentenuser und nicht mehr mich den Eva-User.

00:25:37: Genau also.

00:25:38: das finde ich schon durchaus interessant zu sehen was möglich ist.

00:25:42: allerdings ist mir wirklich nochmal klar geworden dass man dafür sich auch mit der Funktionsweise und eben vor allem auch der Sicherheit von KI-Systemen beschäftigen muss.

00:25:51: Und dass ich nicht glaube, das es gut geht so wie das jetzt gerade gemacht wird von den meisten Menschen.

00:25:56: Und passenderweise habe ich ja auch eine aktuelle Recherche und erzähle dann vielleicht nichts mehr dazu wenn die raus ist um man sehen kann was passiert wenn sich Menschen von KI Agenten Webseiten an Datenbanken anlegen lassen weil wir haben unglaublich viele Daten einfach öffentlich im Netz gefunden.

00:26:13: also wirklich unglaublich vieles.

00:26:14: also jedes ungefähr jedes zwei.

00:26:16: Das zweite Wipecoding-Projekt endet darin, dass Daten gelegt werden.

00:26:20: Und das liegt daran, dass die Menschen sich nicht beschäftigen.

00:26:24: Was wäre denn wichtig für Sicherheit?

00:26:26: Was müsste ich überprüfen, bevor ich dann so ein Ding raushaue?

00:26:32: Also, das fand ich ... Das

00:26:35: sehen wir uns für's nächste Mal auch, das ist so ein Riesenfass.

00:26:39: Ich muss ehrlich auch sagen gerade das Gefühl man wird sowas von überschüttet im App Store mit so vibegecoded Mist also mit Apps die... einfach nicht ordentlich funktionieren und, wenn sie dann noch Daten liegen hat an Prostmahlzeit.

00:26:54: Also ja, man ist von vielen auch von etablierten deutschen Unternehmen tatsächlich Datenbanken online gefunden mit Bewerberdaten, mit Bankdaten ... Mit technischen Zeichnungen also so.

00:27:04: die halt, das weiß ich wegen der Art der Sicherheitslücke, die halt weitgecoded sind natürlich mit KI-Unterstützung coden inzwischen fast alle weil es so schön einfach ist.

00:27:17: Und man kann ja die KI-Agenten diese ganzen Sachen auch fragen, ich diskutiere ja auch viel mit denen.

00:27:23: und auch die Frage wie lege ich denn einen neuen User an unter Windows?

00:27:27: Wenn Windows mich das nicht machen lassen möchte, Windows wollte immer dass sich dann nur jemandem mit einem neuen Windows Account anlegen, das wollte ich nicht so.

00:27:32: und solche Dinge kriegte ich ja auch nur raus in dem ich die verschiedenen Tools frage Wie geht es?

00:27:37: Das ist schon geil finde ich, also dass man das rauskriegen kann.

00:27:40: Aber es ist halt super wichtig, dass man trotzdem noch so eine Art, so ein Matrix im Kopf hat von was mache ich hier eigentlich gerade und wo muss ich hellhörig werden?

00:27:48: Nun muss ich dann nochmal nach recherchieren ob das wirklich in Ordnung ist dazu zu machen.

00:27:51: Und das ist mein Gefühl bei der aktuellen Recherche haben halt ganz viel nicht oder nebenher dann so ne Abkürzung und denken wird schon okay sein.

00:27:58: Das ist glaube ich echt eine Gefahr.

00:28:00: Genau.

00:28:00: aber wie gesagt die Recherchen sind auch nicht raus.

00:28:02: Das erzähle ich euch dann nächstes Mal.

00:28:05: Stay tuned!

00:28:06: Fühlen Sie ja auch nächste Woche wieder rein

00:28:08: Wenn es heißt, they talk tech.

00:28:11: Nächstes Mal dann auch nicht aus Italien sozusagen sondern wieder schön aus Hamburg und Stuttgart.

00:28:18: deswegen erst mal vielen Dank dass ihr reingeschaltet habt.

00:28:22: Schön, dass ihr da seid.

00:28:24: Ganz schöne Woche euch!

00:28:25: Schickt uns gerne Feedback eurer Erfahrungen mit...

00:28:29: Keine bösen Kommentare aber?

00:28:31: Schreibt bitte nur nette Kommentare unter unsere Arbeit.

00:28:36: Vergibt ein paar Sterne.

00:28:37: damit könnt ihr uns wirklich helfen oder teilt diesen

00:28:39: Podcast.

00:28:41: Meldet euch, gefreuner

00:28:42: uns.

00:28:43: Cool dann eine wunderbare Woche euch und dir liebes wehr.

00:28:46: ich freue mich schon nächste Woche zu sprechen.

00:28:48: Das war Bay Tog Tech, ein City Podcast von Eva Wolf-Angel und mir Svea Eckhardt.

00:28:55: Musik und Produktion Marco Pauli.

00:28:58: Und tschüss!

Shownotes

Transkript anzeigen

Neuer Kommentar