# Pentaradio vom 24. Dezember 2024 # Titel: "Was, wenn Daten eine schlechte Idee sind?" Mit Mole, Simon, ttimeless und Xyrill. Zum Jahresende stellen wir die großen Fragen. So auch dieses Jahr: Elektronisch gestützte Bürokratien machen aus Menschen Datenpunkte. Was können wir tun, damit Daten wieder im Dienste der Menschen stehen? Aufgezeichnet am 8. Dezember 2024. ## Feedback Meik schreibt: > Ich höre nun euren Podcast schon so lange und mit so großer Begeisterung, dass es mir fast peinlich ist, dass ich euch erst jetzt ein dickes, großes Dankeschön dafür schicke. > > Ihr liefert immer wieder spannenden Themen und immer wieder hervorragendes Hintergrundwissen. Vieeeelen vielen Dank! Ich freue mich auf jede neue Folge. > > Eine kleine Spende habe ich eurem Verein auch gerade geschickt. > > Macht unbedingt weiter so! Seid wie Meik! Wenn Euch unsere Anliegen wichtig sind und Eure finanzielle Lage es hergibt, zieht bitte in Betracht, eine der nachfolgenden Organisationen finanziell zu unterstützen. - Chaos in deiner Nähe: [CCC](https://www.ccc.de/de/membership), [C3D2](https://c3d2.de/unterstuetzen.html), [Coloradio](https://coloradio.org/?page_id=577) - Positiver Einfluss auf die Politik: Klickt euch mal durch [die Mitgliederliste](https://edri.org/about-us/our-network/) von [EDRi (European Digital Rights)](https://edri.org). - Kritische Infrastruktur: [Internet Archive](https://archive.org/donate), [Let's Encrypt](https://letsencrypt.org/donate/), deine Linux-Distribution, [Wikipedia](TODO) etc. ## News Zu ✨KI✨: - [Anthropic Claude Computer Use](https://www.anthropic.com/news/3-5-models-and-computer-use) - Xyrill macht eine Vorhersage: Damit haben Firmen überhaupt keinen Anreiz mehr, benutzbare UIs zu bauen. Die Kunden können schließlich für den Roboter bezahlen, der sich durch den Blödsinn durchklickt. Wie, ihr habt kein Geld für ein KI-Abo? ... Tja. - Parallele dazu, wie bessere Entwickler-Tools Komplexität nicht reduzieren, sondern vor allem besser verwaltbar machen - Bonusanekdote: Im C3D2 haben wir den Claude-Bot bereits gesperrt, weil sein Scraping exzessive Last auf unseren Systemen verursacht hat (z.B. im C3D2-Wiki fast eine ganze CPU Auslastung nur durch Claudebot-Scraping des Todes). Something something digitale Allmende. - Passend dazu: ["Der KI-Podcast" der ARD vom 12. November 2024](https://www.br.de/mediathek/podcast/der-ki-podcast/haben-ki-chatbots-das-zeug-zum-anwalt/2099673) bespricht automatisierte "✨KI✨-Anwälte" für die Durchsetzung von Fahrgastrechten und Abwehr unberechtigter Geldbußen. - Wir sind hier in der dümmsten Timeline. Wenn solche Claims automatisch angefochten werden können, sollte das ohne Gerichte regelbar sein. - Im Verlauf der Sendung fällt den Moderatoren dann auch auf, dass es vielleicht nicht so toll ist, wenn "der eine Nachbar" dich automatisiert für jede kleine Streitigkeit verklagen kann. - [Katastrophale Antworten von Google Gemini (CW: Suizid)](https://www.theregister.com/2024/11/15/google_gemini_prompt_bad_response/) - nur echt mit Corporate Gaslighting: "Large language models can sometimes respond with nonsensical responses, and this is an example of that." ("LLMs geben manchmal unsinnige Antworten, und dies ist ein Beispiel dafür.") - nicht nur [Studie: Automatisierung (nicht nur ✨KI✨ im Speziellen) reduziert Aufstiegschancen für gering qualifizierte Arbeiter und Angestellte](https://www.theregister.com/2024/11/08/robots_crush_career_low_skill/) - "Es geht nicht nur um Roboter, die Arbeitsplätze ersetzen. Roboter verringern die Möglichkeiten der Menschen, ihr Leben zu verbessern. Für viele Arbeitnehmer, insbesondere für Geringqualifizierte, verschwindet die Leiter zu besser bezahlten Jobs." - es wurde auch eine Korrelation zwischen Automatisierung und Stimmenanteilen populistischer Politiker festgestellt Vermischtes: - [Bert Hubert: "Open Source on its own is no alternative to Big Tech"](https://berthub.eu/articles/posts/open-source-by-itself-is-no-alternative-for-big-tech/) - Xyrill fühlt sich erinnert an ein Argument von ttimeless: "Warum stellt nicht die Handwerkskammer ein paar Entwickler an, um ein CAD-Programm zu entwickeln, damit sich die Handwerker die sündhaft teuren Lizenzen für AutoCAD und Co. sparen können?" - [Vortrag von Frlan beim Prager Linux Tag zu Maintenance](https://www.youtube.com/watch?v=Zr-hmV8Iles) - [Relevanter Kommentar bei HN](https://news.ycombinator.com/item?id=41960754): "Ich wähle z.B. eine Buchhaltungssoftware nicht nach dem Preis aus. Oder nach Zugriff auf Quellcode. Sondern nach der Effektivität. Und ein großer Teil dieser Effektivität besteht darin, dass die Mitarbeiter die Software bedienen können. Und wenn alles schief geht, gibt es jemanden, den man anrufen kann. Ich kaufe eine Beziehung, keine Software. Das ist, warum RedHat ein Geschäftsmodell hat." - APNIC fragt: [Was bringt uns eigentlich IPv6? NAT reicht offenbar](https://blog.apnic.net/2024/10/22/the-ipv6-transition/) - Aus Messdaten sieht man, wie langsam die IPv6-Einführung voranschreitet (laut linearer Interpolation dauert es noch bis 2045). Dementsprechend untersucht der Autor die Frage, inwieweit IPv4 mit NAT offenkundig "gut genug" ist. - Unsere Kritik: Zu viel Fokus auf Layer 3 ohne Blick auf die weiteren Konsequenzen. Überall NAT zementiert Zentralisierung, weil Client-Server-Infrastrukturen bevorzugt und P2P behindert wird. - Zum Thema Zentralisierung hatten wir neulich in [STP056](https://xyrillian.de/noises/stp/056-zentralisierung/) den [RFC 9518](https://datatracker.ietf.org/doc/html/rfc9518) besprochen. - In diesem Zusammenhang stellen wir fest, dass unsere [Lieblingsseite für IPv6-(Nicht-Einführung)](https://www.thomas--schaefer.de/HochschuleninDeutschlandmitinternet.html) de facto eingestellt wurde. - Software-Archivierung: ["Unreal" und "Unreal Tournament" kostenlos im Internet Archive verfügbar](https://mjtsai.com/blog/2024/11/22/unreal-on-internet-archive/) - [Pentaradio berichtete](https://c3d2.de/news/pentaradio24-20220125.html) - [Link zum Archiv-Download von Unreal Tournament](https://archive.org/details/unreal-tournament_202408) - [Unrealtournament Meme](https://www.youtube.com/watch?v=sUSN7fqVBio) - [Dokumentation über den Darsteller später](https://www.youtube.com/watch?v=h4_n67-2bm4) - [DM033](https://damals-tm-podcast.de/index.php/2016/11/12/dtm033_tragbare_computer/) - Google-Monopolfall: US-Justizministerium will Google [zum Verkauf von Chrome zwingen](https://arstechnica.com/tech-policy/2024/11/report-doj-wants-to-force-google-chrome-sale-android-de-bundling/); und [vielleicht auch zum Verkauf von Android](https://arstechnica.com/tech-policy/2024/11/welcome-to-googles-nightmare-us-reveals-plan-to-destroy-search-monopoly/), sofern sich mit forcierten Auswahlbildschirmen kein Wettbewerb einstellt - [Pentaradio berichtete](https://c3d2.de/news/pentaradio24-20240827.html) und [berichtete](https://c3d2.de/news/pentaradio24-20241022.html) - Total Recall: [Windows Recall als Feature Preview ausgerollt](https://www.bleepingcomputer.com/news/microsoft/microsoft-rolls-out-recall-to-windows-insiders-with-copilot-plus-pcs/) (erstmal nur für die noch sehr raren Systeme mit ✨KI✨-Koprozessoren) - [Pentaradio berichtete](https://c3d2.de/news/pentaradio24-20240625.html) und [berichtete](https://c3d2.de/news/pentaradio24-20240924.html) - "Microsoft sagte auch, dass Recall entfernt werden kann \[...]" -- Also Opt-In vielleicht ja, [aber wir sehen Berichte](https://mapstodon.space/@hareldan/113318258025294856), dass der Code in jedem Fall herumliegt und sich nur mit Mühen deinstallieren lässt. Vielleicht, damit Microsoft dann nach Belieben Nervkampagnen à la Windows-11-Upgrade machen kann? - Microsoft-Vertreter betonen diverse Sicherheits-Features. Wir erinnern uns: Bei dem anfänglichen Katastrophen-Design haben sie auch behauptet, dass es komplett sicher sei. - Besonders toll: Recall filtere "automatisch sensible Inhalte wie Kreditkartendaten, Passwörter und persönliche Identifikationsnummern \[...]" - Woher weiß Recall, welche Zeichenketten Passwörter und PINs sind? Ist das auch wieder ✨KI✨ (mit der entsprechenden Fehlerrate)? - "Auf der diesjährigen Ignite-Konferenz kündigten \[Microsoft-Vertreter] außerdem an, dass Recall standardmäßig von Unternehmensgeräten entfernt wird, wobei IT-Administratoren die Möglichkeit haben, es für Mitarbeiter zu aktivieren." - Na, warum ist das denn notwendig, wenn's doch angeblich so sicher ist? - [Sicherheitslücke in 7-Zip: Bösartige Archive im zstd-Format können zu Remote Code Execution führen](https://cybersecuritynews.com/7-zip-vulnerability-arbitrary-code/) - behoben in 7-Zip 24.07 - Videotipp: [ausführliche Erklärung bei Low Level](https://www.youtube.com/watch?v=i5L9xEk_adw) - Bundeswarntag zeigt Wirkung ## Musik - ["El Alcazar", Eko_Fisk & Gears in the Rain (2024)](https://www.zenapolae.com/zen300) ([via](https://www.clongclongmoo.org/2024/11/19/eko_fisk-gears-in-the-rain-dark-air/)) ## Thema: Was, wenn Daten eine schlechte Idee sind? ### Motivierendes Zitat für den Anfang [Susan Potter gibt auf Mastodon](https://mastodon.social/@SusanPotter/113498236995962846) ein Zitat des Politikwissenschaftlers und Informatikers [Herbert A. Simon](https://de.wikipedia.org/wiki/Herbert_A._Simon) wieder. Übersetzung (mit Unterstützung von [DeepL](https://deepl.com)): > In einer Welt reich an Informationen, bedeutet der Reichtum an Informationen einen Mangel an etwas anderem: eine Knappheit dessen, das die Informationen konsumiert. Was Informationen konsumiert, ist ziemlich offensichtlich: Sie verbrauchen die Aufmerksamkeit ihrer Empfänger. Ein Reichtum an Informationen schafft also eine Armut an Aufmerksamkeit. Die Originalquelle ist ein Vortrag von 1971 (!), ["Designing Organizations for an Information-Rich World"](https://gwern.net/doc/design/1971-simon.pdf), dort auf Seite 4 unten. ### Einleitung Daten sind strukturierte Informationen: - Informationsflut heißt heute vor allem Datenflut - siehe der Hype um "Big Data" in den frühen 2010er Jahren - später dann Ernüchterung: wenn man die Nadel nicht findet, ist die Lösung nicht unbedingt ein größerer Heuhaufen - Parallele zu ✨KI✨: [XKCD 1838 "Machine Learning" von Mai 2017](https://xkcd.com/1838/) Diese Parallele sieht auch David Schmudde in ["What if Data is a Bad Idea?"](https://schmud.de/posts/2024-08-18-data-is-a-bad-idea.html): - klare Leseempfehlung - außerdem der Leitfaden für unser Gespräch Zurück zu "strukturierte Informationen": - Daten an sich sind die Arbeitsbasis für die meisten menschlichen Betätigungsfelder - Landwirtschaft entwickelte sich Hand in Hand mit strukturierter astronomischer Beobachtungstätigkeit - der Bau der ägyptischen Pyramiden war nur möglich durch akribische Buchhaltung im Hintergrund - usw. - grundsätzlich problematisch sind Daten über Menschen - Machtbasis und Lebenssaft für bürokratische Institutionen - siehe [Volkszählungsurteil](https://de.wikipedia.org/wiki/Volksz%C3%A4hlungsurteil), dass das Grundrecht auf informationelle Selbstbestimmung herausgearbeitet hat - siehe die weitere Entwicklung mit BDSG, Cookie-Direktive und DSGVO als ständig scheiternder Versuch, gegen die Datensammelwut von Behörden und Wirtschaft anzukämpfen - Problem: Daten sind "kalt" (unveränderlich) und fernab der Betroffenen gelagert - [Alan Kay](https://de.wikipedia.org/wiki/Alan_Kay) wird zitiert mit dem Wunsch, Daten durch "Botschafter" zu ersetzen: "Für wichtige Verhandlungen schicken wir keine Telegramme, sondern Botschafter." (bisher aber keine praktische Umsetzung) - Daten über Menschen machen aus Akteuren Objekten - siehe [diese Anekdote von Talia Hussain](https://mstdn.social/@Talia/113312167687400373): Forschungsprojekt zu ✨KI✨-Agenten scheitert in der Problemfindungsphase, weil sich herausstellt, dass Menschen Technik zur Selbstermächtigung nutzen wollen, und nicht, um sich Entscheidungskompetenz wegautomatisieren zu lassen - Ziel: kalte und ferne Daten zu "lebendigen Daten" umbauen - auf Basis des Artikels ["Living Data" von Phil Agre (1994)](https://www.wired.com/1994/11/agre-if-2/) werden dazu passende Bemühungen in fünf Stoßrichtungen katalogisiert ### 1. Provenienz und Handlungsmacht ("Provenience and Agency") > Wo kommen diese Daten her? Was darf ich mit ihnen machen? - [Verifiable Credentials](https://www.w3.org/TR/vc-data-model/) als Beispiel für ein Modell, um z.B. Identitätsnachweise oder Zeugnisse zugänglich zu machen - in der EU haben wir diese Debatte in Form von [eIDAS ("electronic IDentification, Authentication and trust Services")](https://de.wikipedia.org/wiki/Verordnung_(EU)_Nr._910/2014_(eIDAS-Verordnung)) - Thomas Lohninger zählt in [LNP508](https://logbuch-netzpolitik.de/lnp508-hello-kitty-koalition) am Rande die drei Grundprinzipien eines die Privatsphäre respektierenden elektronischen Identitätsnachweises auf: - Unnachverfolgbarkeit: der Staat soll nicht sehen können, wo du dich wann ausweist - Unverknüpfbarkeit: Firmen und Behörden sollen nicht beweisen können, dass z.B. zwei Altersnachweise von derselben Person erbracht wurden - Erforderlichkeitsprinzip ("need to know"): beim Ausweisen soll nur die minimal benötigte Information übertragen werden (zum Beispiel beim Altersnachweis nur ein Bit für z.B. "ist die Person über 18", nicht das genaue Alter und schon gar nicht Name und Adresse) - Adobes [Content Authenticity Initiative](https://contentauthenticity.org/) mit dem Ziel des Nachweises realer (d.h. nicht ✨KI✨-verseuchter) Inhalte wird kritisch diskutiert, da Adobe sich in der Vergangenheit z.B. beim Langzeiterhalt von Flash-Inhalten unkooperativ gezeigt hat - [Pentaradio berichtete](https://c3d2.de/news/pentaradio24-20220125.html) zu den Problemen mit Archivierung digitaler Artefakte - Kritik auch an Web3 und dem Konzept der Kommodifizierung von Identität: "Kontrolle skaliert nicht" - dies ist am Ende die finale These, deswegen später ausführlich - [Solid ("SOcial LInked Data")](https://en.wikipedia.org/wiki/Solid_(web_decentralization_project)) wird als Chance gesehen: um Kontrolle über die Nutzung der eigenen Daten zu behalten, müssen die Daten im Einfluss ihrer Eigentümer verbleiben und eher die Berechnungen näher an den Nutzer rücken - siehe Debatte um Gesundheitsdaten-Zugriff für die Forschung: die Bürokraten wollen einen großen Datentopf mit zig Regeln, die Datenschützer wollen lieber souverän gespeicherte Daten und verteilte Berechnungsprozesse mit transparenten Algorithmen - [in UK wird versucht, Patientenakten des NHS in einem Palantir-System abzulegen](https://pluralistic.net/2024/03/08/the-fire-of-orodruin/) ### 2. Verlässlichkeit ("Accuracy") > Wie verlässlich sind diese Daten? - "Verifiable Credentials" deckt auch den Validierungsteil ab - aber: "Die Vereinfachung der Ausweiskontrollen sorgt dafür, dass wir mehr davon haben werden." - genau unsere Kritik an eID-Systemen (von elektronischem Personalausweis und Führerschein bis zu eIDAS) - Schmudde knüpft dies zu seinem anfänglichen Motiv zurück: mehr maschinenlesbare Daten führt zu mehr Bürokraten - Money Quote aus dem verlinkten Essay ["Blame the Computer" von Corey Pein (2018)](https://thebaffler.com/salvos/blame-the-computer-pein): "\[Informatiker] laden erneut zum Vergleich mit ihren düsteren Cousins ein, den klassischen Ökonomen. Beide Disziplinen ziehen ihre Schlussfolgerungen aus fabrizierten Simulakren; aus Modellen, die darauf basieren, wie sie sich vorstellen, dass die Dinge funktionieren sollten -- und nicht durch geduldige, kontinuierliche Beobachtung, wie sie tatsächlich funktionieren." - Das ist ein interessanter Kontrapunkt zu meiner Standardkritik an KI, dass man das Problem unscharfer Definitionen löst, indem man stattdessen mehr Teile vom System unscharf macht. - Dieser Essay macht sehr viele weitere interessante Punkte. Leseempfehlung! Vielleicht machen wir hierzu ebenfalls mal eine Folge. **Achtung:** Das heißt nicht, dass ich dem Text komplett zustimme. Aber er wirft gute Fragen auf. ### 3. Datenfluss ("Data Flow") > Wie sehr ändert sich die Antwort, wenn ich an den Eingaben drehe? - bildlicher Vergleich mit reaktiven Programmiersystemen wie in Tabellenkalkulationen - Anforderung 1: Datenflüsse müssen kontinuierlich sein, z.B. soll nach Änderungen in meinem Personalausweis (Namenswechsel, Adresswechsel etc.) nur noch die neuen Daten verwendet werden - Parallele zur ursprünglichen Idee, wie LDAP-Server mittels Referrals vernetzt sind - Caveat: Xyrill konnte leider außerhalb seiner Erinnerung keine Quelle für diese spezifische Formulierung finden - Anforderung 2: Datenflüsse müssen resilient sein, z.B. ein Zeugnis muss noch überprüfbar sein, wenn die Hochschule den Betrieb eingestellt hat (vgl. "Link rot") - siehe die fundamentale Vertrauensfrage ([STP048](https://xyrillian.de/noises/stp/048-vertrauen/): "Vertrauen lässt sich nicht eliminieren, nur verschieben") - für Resilienz werden einige aktive Projekte aufgezählt: - [DID (Decentralized IDentifier)](https://www.w3.org/TR/did-core/) lösen das Problem, dass Identifizierung an der Lebensdauer von Domain-Namen hängt - [CRDT (Conflict-free Replicated Data Types)](https://en.wikipedia.org/wiki/Conflict-free_replicated_data_type) lösen das Problem von Bearbeitungskonflikten beim parallelen Pflegen derselben Datensätze - [IPFS](https://ipfs.io/) löst das Problem der persistenten ortsungebundenen Speicherung unveränderlicher Daten ### 4. Integrität und Reproduzierbarkeit ("Errors: Integrity and Reproducibility") > Fehler breiten sich schneller aus, als sie repariert werden können. \[...] Wenn etwas falsch ist, können wir die Berechnung zurückverfolgen und feststellen, wo das Problem herkommt? - das ist hier überraschenderweise gemeint im Sinne "Korrektur fehlerhafter Berechnungen", nicht "Korrektur fehlerhafter Stammdaten" - somit ist dann eine der Lösungen Unveränderlichkeit ("Immutability"), die neben Blockchain und IPFS auch von den vorgenannten "Verifiable Credentials" erfüllt wird - Zurückziehung fehlerhafter Daten (z.B. eines zu Unrecht erworbenen Doktortitel) muss aber auch unterstützt werden - da wird der Essay m.M.n. zu hand-wavy ### 5. Semantik ("Semantics") > Es kommt sehr häufig vor, dass zwei Datenbanken Datenspalten enthalten, die mit demselben Wort benannt sind – z.B. „Preis“ oder „Name“ oder „genehmigt“ –, obwohl dieses Wort für die Ersteller der Datenbanken ganz unterschiedliche Bedeutungen hat. - jetzt sind wir bei den Grundfesten der Ontologie angekommen - Einführungsvorlesung in Ontologie: [VSauce: "Do Chairs Exist?"](https://www.youtube.com/watch?v=fXW-QjBsruE) - nochmal das Zitat von vorhin von Corey Pein: "\[Informatiker] laden erneut zum Vergleich mit ihren düsteren Cousins ein, den klassischen Ökonomen. Beide Disziplinen ziehen ihre Schlussfolgerungen aus fabrizierten Simulakren; aus Modellen, die darauf basieren, wie sie sich vorstellen, dass die Dinge funktionieren sollten -- und nicht durch geduldige, kontinuierliche Beobachtung, wie sie tatsächlich funktionieren." - Gegenrede: Gute Programmierer wissen sehr genau, wie begrenzt ihre Modelle der Welt sind. - siehe ["Falsehoods programmers believe about names"](https://web.archive.org/web/20240325164409/shinesolutions.com/2018/01/08/falsehoods-programmers-believe-about-names-with-examples/) - Zustimmung insoweit, als dass dies in der Ausbildung stärker thematisiert werden sollte (wie der Titel schon sagt: "Falsehoods programmers believe...") - außerdem: selbst wenn die Programmierer verstehen, dass die Karte nicht das Gebiet ist, gilt das auch für die ~~Schlipse~~ Entscheider? - im Gespräch erwähnt: [CRE213 zu Brot](https://cre.fm/cre213-brot) ### Kontrolle skaliert nicht ("Control does not scale") > Es ist weder möglich noch wünschenswert, jeder Person online ein Simulakrum ihrer Identität zu geben. - Schmuddes Kritik an Web3: die meisten Menschen haben weder die Zeit noch die Expertise, ihre Online-Identitäten bis ins Kleinste zu verwalten - vgl. nochmal BDSG, Cookie-Direktive, DSGVO, etc.: Einspruchsmöglichkeiten werden nicht genutzt, weil sie zu mehr und nicht weniger Bürokratie führen; Cookie-Banner führen nicht zu Selbstermächtigung, sondern nur zu Frust - weitere Kritik an Web3: wenn man mittels eines Marktplatzes dezentralisiert, wird der Marktplatz die zentrale Macht - vgl. [die Debatte um ✨KI✨-Trainingsrechte als Teil des Urheberrechtes](https://pluralistic.net/2024/11/18/rights-without-power/) - die Richtung ist klar: persönliche Daten raus aus den Rechenzentren und zurück zu den Personen, die ihnen ihren Wert verleihen - "Eine echte politische Reaktion erfordert mehr als die Einführung neuer Technologien. \[...] Es mag unüberwindbar erscheinen, aber die Alternative ist eine singuläre politische Vision, in der es nur eine Form der Datenverwaltung gibt: große Datenzentren, gefüllt mit groben Datenpunkten und zahllosen Annahmen darüber, was diese Daten darüber aussagen, wer wir sind. Dies ist in der Tat eine schlechte Idee."