Zum Hauptinhalt der Seite springen

KI verantwortungsvoll nutzen

Welche Gesetze, ethische Standards und Folgen für die Umwelt sind beim Einsatz von KI im Journalismus zu berücksichtigen? Ein Blick auf den Rahmen für die verantwortungsvolle Nutzung von KI im Journalismus.

Abstrakte Grafik

Ende 2023 kündigte das US-amerikanische Start-up Channel 1 mit einem Werbevideo seinen Markteintritt für das Jahr 2024 an. Als einer der weltweit ersten Nachrichtensender will Channel 1 seine Produktionsprozesse vollständig auf Künstliche Intelligenz aus­richten. Menschen liefern demnach hauptsächlich das Material und prüfen die Fakten. Den Rest übernimmt die KI. Im Video erklärt ein künstlich generierter Avatar, was das bedeutet: „Alles, was Sie auf Channel 1 sehen, nutzt KI, um Ihnen Nachrichten auf die Art und Weise zu präsentieren, wie Sie es wünschen – personalisiert, lokalisiert und auf Sie zugeschnitten.“ Weiter sagt der Avatar: „Technologie ist zwar das Werkzeug, trotzdem orientieren wir uns in allem an den Grundwerten journalistischer Sorgfalt und Verantwortung.“

Ist das die Zukunft des Journalismus? Ist es ethisch vertretbar – ganz, in Teilen oder gar nicht? Ist es die Zukunft, die wir uns wünschen?  

Um KI verantwortungsvoll einzusetzen und um in einer Arbeits­um­­gebung mit KI bestehen zu können, braucht es Wissen auf verschie­denen Ebenen. Neben einem soliden Verständnis der Funk­tions­­weise der Technologie sind auch Kenntnisse der recht­lichen Rahmen­bedingungen und presseethischen Aspekte not­wendig. Zudem ist es hilfreich zu verstehen, wie Verzerrungen und Voreingenommenheit von KI-Anwendungen entstehen. Bisher wenig diskutiert, aber auch ein wichtiger Punkt für den verantwortungs­vollen Umgang, ist aus unserer Sicht die Frage, welche Umwelt­belastungen Training und Einsatz dieser Technologie mit sich bringen.

Recht

Derzeit gibt es mit Blick auf KI mehr ungeklärte Rechtsfragen als geklärte. Im Fokus steht daher unter Juristinnen und Juristen oft die Frage, was alles noch geregelt werden sollte. Auf Basis der schon jetzt geltenden Gesetze lassen sich aber dennoch schon Grundsätze und Tendenzen aufzeigen. Im Folgenden geben wir einen knappen Überblick über wichtige Aspekte.

KI-Verordnung oder die Frage: Wie hoch ist das Risiko?

Im März 2024 hat das Europaparlament mit der KI-Verordnung das weltweit erste KI-Gesetz beschlossen, das für mehrere Länder gilt. International firmiert es als AI-Act und gilt unmittelbar in allen EU-Mitgliedsstaaten. Für die alltägliche redaktionelle Arbeit wird es jedoch erst mal keine unmittelbare Rolle spielen. Zum einen läuft bis zum Inkrafttreten im Frühjahr 2026 noch eine Übergangszeit, während der sich alle auf die Einhaltung der Vorgaben vorbereiten können. Zum anderen werden auch von 2026 an Journalistinnen und Redakteure eher wenig mit der EU-Verordnung in Berührung kommen. Denn das Gesetz richtet sich in erster Linie an Entwickelnde, Herstellende und Anbietende von KI-Systemen.  

Zentraler Regelungsansatz ist, dass KI-Systeme in Risikoklassen eingeteilt werden. Je nach Risikoklasse müssen dann entsprechende Sicherheitsvorkehrungen getroffen werden. Im journalistischen Alltag wichtiger sind derzeit noch Fragen, die sich um Urheberrecht und Datenschutz drehen.

Datenschutz oder die Frage: Gilt das Medienprivileg?

Datenschutzrechtliche Fragen können sich schon bei der Eingabe eines Prompts stellen, wenn dieser personenbezogene Daten ent­hält. Auch bei der weiteren Nutzung von KI im redaktionellen All­tag kann Datenschutz relevant werden. Denn die Datenschutz-Grund­verordnung (DSGVO) schützt personenbezogene Daten, also alle Infor­mationen, die sich auf eine Person beziehen und direkt mit ihrem Namen verknüpft sind oder ihm zugeordnet werden können. Personen, die diese erheben oder verarbeiten, haben deshalb verschiedene gesetzliche Verpflichtungen.

Allerdings kann im Journalismus eine interessante Ausnahme zum Tragen kommen – das sogenannte Medienprivileg. Es besagt, dass Datenschutzbestimmungen bei der journalistischen Arbeit von der Recherche bis zur Veröffentlichung größtenteils nicht gelten. Warum? Ohne das Medienprivileg wäre die freie Medienberichterstattung in manchen Fällen gefährdet oder sogar unmöglich – wenn etwa im Rahmen einer investigativen Recherche wegen Datenschutzes erst eine Einwilligung der betroffenen Person eingeholt werden müsste.  

Das Medienprivileg gilt jedoch nur unter der Bedingung, dass die betroffenen personenbezogenen Daten zu journalistischen Zwecken genutzt und verarbeitet werden. Und auch wenn für die Verarbeitung der Daten eine Ausnahme besteht, so sind andere Regeln wie das Persönlichkeitsrecht dennoch einzuhalten. Auch gilt das Medien­privileg nicht außerhalb der eigentlichen journalistischen Arbeit – die Distribution von Inhalten, wie der Versand eines Newsletters über personalisierte Angebote, fällt zum Beispiel nicht darunter.  

Wollen Journalistinnen und Journalisten im Alltag KI nutzen, so ist der Datenschutz hier also erst mal keine grundsätzliche Hürde, wenn sie sich bei der Recherche und Erarbeitung von Beiträgen auf das Medienprivileg berufen können.  

Inwieweit diese Ausnahmeregelung bei der zukünftig noch umfassen­deren Nutzung von KI im Journalismus gelten wird, ist noch nicht final geklärt. Auch hier wird es vermutlich darauf ankommen, inwieweit die Nutzung den eigentlichen journalistischen Zwecken dient oder nicht.

Urheberrecht oder die Frage: Wie viel menschliche Kreativität steckt drin?

Wer das Urheberrecht an einem Werk hat, darf darüber entscheiden, ob, wo und auf welche Weise es veröffentlicht werden darf und zu welchem Preis. Daraus ergeben sich durch generative KI-Anwen­dungen neue Herausforderungen. Den Aspekt, wie journa­listische Inhalte zum Training von KI genutzt werden, beleuchten wir im Kapitel „Training von KI-Modellen“. Aber auch im praktischen Einsatz gibt es neue Fragen: Kann man mit der Veröffentlichung von KI-generierten Inhalten gegen Urheberrechte verstoßen? Und wie ist es, wenn bei der Produktion von Inhalten KI geholfen hat – ist dann der Content zugunsten der Medienschaffenden trotzdem noch urheberrechtlich geschützt?  

Im Zentrum all dieser Fragen stehen zwei zentrale juristische As­pek­te: Hat ein Mensch es erstellt und ist es wirklich kreativ? Nur wenn diese beiden Faktoren zutreffen, gilt überhaupt das Urheber­recht.  

Da durch das Urheberrecht nur menschliches Schaffen geschützt wird, sind von KI völlig autonom und automatisiert erstellte Inhalte wie Texte, Bilder oder Videos nicht urheberrechtlich geschützt. Spuckt die Maschine aber einen bestimmten Text oder ein bestimm­tes Foto quasi unverändert von einem Original aus, das urheber­rechtlich geschützt ist, liegt das Urheberrecht noch bei der Person, die das Original erstellt hat. Entsprechend müssen dann Lizenz­gebühren gezahlt werden. Dieser Fall kommt verhältnismäßig selten vor. Dies zu wissen und aufmerksam zu bleiben, ist hier aber wichtig.

Eine praktische Frage, die zunehmend relevanter werden wird, ist die folgende: Kann ich einen Beitrag, für den ich KI verwendet habe, bei der Verwertungsgesellschaft anmelden? Das geht nämlich nur, wenn ich selbst Urheberin oder Urheber bin.  

Wenn KI lediglich Werkzeug, Hilfsmittel und Unterstützung des kreativen journalistischen Schaffensprozesses war und die eigentlich kreative Tätigkeit durch einen Menschen erfolgte, kann der Beitrag grundsätzlich urheberrechtlich geschützt sein.  

Aber egal, ob KI im Spiel ist oder nicht – es gibt noch eine zweite Bedingung. Juristen haben sich dafür den Begriff der Schöpfungs­höhe ausgedacht. Diese liegt vor, wenn ein Text, eine Grafik, ein Video oder ein anderer Beitrag in ausreichendem Maße individuell, einzigartig und kreativ ist. Bei einer Nachricht als bloße Wiedergabe von Fakten ohne gestalterische Elemente ist das eben nicht der Fall.  

Doch wann ist die Schwelle zur „Schöpfungshöhe“ überschritten, damit das Urheberrecht überhaupt gilt? Die Übergänge sind hier fließend und es lassen sich keine starren Abgrenzungen vornehmen. Diese Frage kann jeweils nur im Einzelfall in Bezug auf den konkreten journa­lis­tischen Inhalt beantwortet werden. Eine Daumenregel allerdings gibt es schon: Je mehr ein Mensch den Inhalt geistig-kreativ gestaltet hat, umso eher ist Urheberschutz gegeben.  

Journalistische Sorgfalt und Transparenz

„KI-Journalismus geht schief, wenn er unkontrolliert, faul, egoistisch, unehrlich und undurchsichtig ist“, schreibt Zach Seward, leitender  
KI-Experte der New York Times am Anfang eines langen Beitrags (2024). Doch unter welchen Rahmenbedingungen kann der verantwortungsvolle Einsatz von KI im Journalismus gelingen? Das, so Seward, müsse sehr gründlich geprüft werden. In jedem Fall solle der Einsatz von KI im Journalismus „davon motiviert sein, was das Beste für das Publikum ist“. So müssten unbedingt die Grundprinzipien des Journalismus gelten. 

Die zwei zentralen Grundprinzipien in diesem Kontext sind die jour­nalistische Sorgfalt und Transparenz. Auch wenn der Begriff Sorg­falts­pflicht eher unklar und schwammig klingt, so kann ein Verstoß dagegen auch rechtliche Konsequenzen haben. Ist aber nach­weisbar, dass Sorgfaltspflichten eingehalten wurden, kommen Gegen­an­sprüche auf Unterlassen oder gar Schadenersatz sowie eine straf­recht­liche Verfolgung nicht in Betracht.  

Als Hüter ethischer Standards in den Medien in Deutschland hat sich der Deutsche Presserat mit dem Thema beschäftigt. In seinem Jahresbericht für 2023 heißt es: „Der Pressekodex verpflichtet Redak­tionen bereits jetzt zur Einhaltung der berufsethischen Stan­dards unabhängig davon, ob ein Text von einem Menschen oder einer Maschine stammt“ (Deutscher Presserat 2024). Aus diesem Grund und mit Blick auf die Dynamik der KI-Entwicklung gebe es aktuell nicht den Bedarf, den Pressekodex anzupassen und beispielsweise eine Kennzeichnungspflicht von KI-Inhalten einzuführen. Trotzdem dürften KI-generierte Inhalte die Leserschaft nicht in die Irre führen. 

Aus diesem Grund und mit Blick auf die Dynamik der KI-Entwicklung gebe es aktuell nicht den Bedarf, den Pressekodex anzupassen und beispielsweise eine Kennzeichnungspflicht von KI-Inhalten einzuführen. Trotzdem dürften KI-generierte Inhalte die Leserschaft nicht in die Irre führen.  

Für Bilder, die mit KI-Tools generiert werden, gebe es zudem schon jetzt eine Kennzeichnungspflicht. Von KI erzeugte Bilder sind dem­nach von der Regelung zu Symbolbildern umfasst und müssen als solche gekennzeichnet werden. Der Schweizer Presserat (vgl. 2024) hingegen hat seinem Journalistenkodex schon einen Leitfaden für den Umgang mit Künstlicher Intelligenz hinzugefügt. 

Ein Medienhaus, das eher vorprescht, ist der Kölner Verlag M. DuMont  
Schauberg. Die Nachricht, dass neuerdings Texte von Klara Indernach – Kürzel: KI – in seinen Medien erscheinen sollten, ließ im Sommer 2023 aufhorchen. „Der Express tut zumindest in Teilen so, als wäre die KI ein Mensch“, kommentierte die Tageszeitung taz dies im September. Ethisch vertretbar oder nicht? In vielen Fällen werden Fragen zur Transparenz eine Gratwanderung bleiben. Was sollte deklariert werden? Und wo? Reicht es, dass der Hinweis auf die Produktion von Texten durch eine KI nicht direkt am Beitrag sondern auf einer anderen Webseite steht – analog zu den Kurzbiografien tatsächlicher Personen?

Im Fall Klara Indernach handelte sich der Kölner Express 2023 eine Missbilligung des Presserats ein. Allerdings nicht für sein Vor­gehen bei der Texterstellung oder der Platzierung des Trans­pa­renz­hin­weises. Sondern, weil er zunächst nicht darauf hingewiesen hatte, dass das Bild der Autorin mit Midjourney erstellt worden war.  

Eine erste Rüge für einen KI-generierten Text hat der Deutsche Presserat 2023 gegenüber der Zeitschrift Die Aktuelle ausge­sprochen. Sie hatte ein angebliches Interview mit dem ehe­maligen Formel-1-Rennfahrer Michael Schumacher veröffentlicht und es auf der Titelseite als „erstes Interview“ seit dessen tragischem Skiunfall 2013 angekündigt. Die Kennzeichnung als KI-generiertes Interview im hinteren Teil des Beitrags war hier nicht ausreichend. Der Presserat sah darin eine „schwere Irreführung der Leserschaft“ und eine mögliche Verletzung des Persönlichkeitsrechts von Schumacher.  

Neben Grundsatzentscheidungen zu fehlenden Kennzeichnungen bei Bildern und dem Schumacher-Interview gab es bis Redaktionsschluss keine weiteren Entscheidungen des Deutschen Presserates. Auch gab es laut einer Sprecherin bis Mai 2024 keine sonstigen nennens­wer­ten Beschwerden. Über das zukünftige Vorgehen berät derzeit eine Arbeits­gruppe. Der Schweizer Journalist und Kommunikations­wissen­schaftler Colin Porlezza (2024) hält das für zu zögerlich und verweist auf Richtlinien, die der Europarat entwickelt hat.  

In seinen Guidelines für eine verantwortungsvolle Handhabung von KI-Systemen im Journalismus (vgl. Council of Europe 2023) betont der Europarat die Chancen und das Innovationspotenzial von KI für den Journalismus und macht zugleich Vorschläge, wie Medienschaffende, Medienorganisationen, Technologieanbieter und Nationalstaaten mit dem Thema umgehen sollten. Dabei erinnert er daran, dass das Recht auf freie Meinungsäußerung, das auch in Artikel 10 der Europäischen Menschenrechtskonvention verbrieft ist, mit Verantwortung gegen­über der Gesellschaft einhergeht. Journalistische KI-Systeme in Übereinstimmung mit Werten einzusetzen, sei jedoch eine schwierige Aufgabe, auf die es keine vorgefertigten Antworten gebe, heißt es ebenso in dem Papier. Die eigentliche Herausforderung läge daher in der Ausgestaltung konkreter Anwendungen. 

Interne Leitlinien

Wie dürfen Redaktionen KI nun also einsetzen? Und was ist ethisch nicht vertretbar? Die neuen KI-Tools haben dieser Frage Brisanz und Aktualität verliehen. Deshalb hat die international tätige Nicht­regierungsorganisation Reporter ohne Grenzen, die sich für Presse­frei­heit einsetzt, am 10. November 2023 in Paris gemeinsam mit 16 Partnerorganisationen eine Charta zu KI und Journalismus verab­schiedet.  

Im Kern betrachtet die Paris-Charta (ROG 2023) Künstliche Intelligenz als Werkzeug mit einer bedeutenden Besonderheit. Diese liegt darin, dass das Werkzeug eigene Entscheidungen trifft und dadurch auch die öffentliche Aufmerksamkeit lenken kann. Darum gelte es, den Einsatz dieses Werkzeugs konstant zu hinterfragen, zu überwachen und transparent zu machen. Die Friedensnobelpreisträgerin und Vorsitzende der Charta-Kommission, Maria Ressa, sagte anlässlich der Unterzeichnung: „Technologische Innovation führt nicht per se zu Fortschritt: Sie muss von der Ethik gesteuert werden, um der Menschheit wirklich zu nutzen.“ 

Konkret werden in der Charta zehn Grundsätze zum journalistischen Umgang mit Künstlicher Intelligenz formuliert. Sie richten sich an Medienorganisationen ebenso wie an Journalistinnen und Journa­listen. So fordert die Charta Unternehmen auf, „das mensch­liche Handeln in den Vordergrund“ zu stellen und „Herkunft und Rück­verfolg­barkeit von Inhalten“ zu garantieren. Des Weiteren seien die Medienunternehmen „immer verantwortlich für die Inhalte, die sie veröffentlichen“. 

Darüber hinaus sollten sowohl Unternehmen als auch einzelne Medien­­schaffende laut der Charta eine klare Trennlinie zwischen syn­the­tischen und authentischen Inhalten ziehen und „eine aktive Rolle bei der Steuerung von KI-Systemen spielen“. Handlungsleitend sollte stets ihre Hauptaufgabe sein, das Recht aller Menschen auf qualitativ hochwertige, vertrauenswürdige Informationen zu gewähr­leisten.

Die Paris-Charta von Reporter ohne Grenzen ist nicht die erste Richt­linie ihrer Art. Zahlreiche Medienorganisationen hatten zuvor bereits eigene Codes of Conduct formuliert. In Deutschland gab sich als eine der ersten der Bayerische Rundfunk im November 2020 KI-Richtlinien (vgl. Bedford-Strohm et al. 2020). Von 2023 an gab es dann einen enormen Zuwachs. Eine weltweite Vergleichsanalyse aus September 2023 (Becker et al. 2023) zeigt, dass viele Unternehmen in einigen zentralen Aspekten ein ähnliches Verständnis von einem verantwortungsvollen Umgang mit Künstlicher Intelligenz entwickelt hatten.

Transparenz, die Verantwortung für KI und eine Überwachung von KI-generierten Inhalten und Entscheidungen sind gemeinsamer Konsens. Die untersuchten Medienorganisationen schreiben in ihren Kodizes ausdrücklich, dass sie Journalistinnen und Journalisten nicht durch KI ersetzen wollen. Einige heben zudem hervor, dass KI rassistischen, sexistischen oder anderweitig menschenfeindlichen Dateninput reproduzieren kann. 

Die Autoren der Studie erwähnen allerdings auch blinde Flecken in den Branchenrichtlinien. Sie monieren beispielsweise, dass einige Richtlinien nicht konkret genug seien. So sei zum Beispiel unklar, ob die selbst auferlegte Kennzeichnungspflicht nur für vollständig KI-generierte Texte und Bilder gelte oder auch für Titel und Teaser, bei denen KI lediglich zu Rate gezogen wurde. Probleme wie die menschenunwürdige Bezahlung von Hilfsarbeitenden bei der Kura­tierung der Trainingsdaten und dem Training der KI oder die öko­logischen Schäden durch den enormen Wasserverbrauch von KI-Servern fehlen demnach in allen untersuchten Richtlinien. 

Laut einer Studie der Landesanstalt für Medien NRW vom März 2024 (vgl. Nennstiel/Isenberg 2024) wünscht sich eine große Mehrheit der Bevölkerung eine unabhängige Aufsichtsbehörde und strenge, verbindliche Regeln für den Einsatz von KI im Journalismus. Ein Teil der Befragten lehnt KI im Journalismus sogar gänzlich ab. Gerade im Zusammenhang mit politischer Berichterstattung herrscht Skepsis.

Aktuell plant laut der Vergleichsstudie von Becker, Simon und Crum kaum ein Verlag, Mediennutzende in die Entwicklung von Hand­reichungen zum Umgang mit Künstlicher Intelligenz im Journa­lismus einzubeziehen. Das könnte allerdings wichtig sein für Medienhäuser, um die Glaubwürdigkeit ihrer Medienmarke und das Vertrauen in ihre Berichterstattung zu bewahren.

Tipps für die Entwicklung eines KI-Kodex

Bezugsrahmen
Für welche Teile des Unternehmens soll der KI-Kodex gelten? Den Anwendungsbereich bewusst abzustecken, ist ein wichtiger Aspekt. Bislang wurden ausschließlich die Auswirkungen von KI auf die Arbeit von Journa­listinnen und Journalisten behan­delt. Allerdings werden zukünftig in vielen Medienhäusern auch Abteilungen für Presse- und Öffentlichkeit, Personal oder der Vertrieb Künstliche Intelligenz ver­wenden. Unter­­nehmen sollten sich überlegen, welche Regeln eines Kodex auch für diese Bereiche gelten.

Kodex-Vorlagen
Welche Regeln geben sich vergleichbare Unternehmen? Zu Beginn des Prozesses sollten sich Verantwortliche einen Überblick über den Status quo verschaffen. Je besser sich einzelne Kodizes aneinander orientieren, desto eher kommt die Branche zu einheitlichen Stan­dards. Die Paris-Charta ist ein guter Ausgangspunkt. Da sich das KI-Feld aber schnell weiterentwickelt, ist es wichtig, auf möglichst aktuelle Ansätze zurückzugreifen. Diese Vorlage des Poynter Institutes wird beispielsweise regelmäßig aktualisiert (vgl. Poynter Institute 2024).

Risikomanagement
Wo gibt es ethische Herausforderungen im Workflow? Dass ein KI-spezifischer Code of Conduct überhaupt nötig ist, hängt damit zusammen, dass Künstliche Intelligenz einen negativen Einfluss auf die journalistische Arbeit haben kann. Für einen guten KI-Kodex sollten Medienhäuser diese möglichen negativen Einflüsse deshalb systematisch identifizieren und Gegenstrategien formulieren.

Einbeziehung der Öffentlichkeit
Was meinen die Nutzenden? Die breite Öffentlichkeit hat konkrete Anforderungen an den Einsatz von KI im Journalismus. Darum sollten Medienorganisationen auf der Suche nach einem KI-Kodex eine Platt­form etablieren, über die die Öffentlichkeit am Prozess beteiligt wird. Dies kann zudem die notwendige Transparenz schaffen, die für die Glaubwürdigkeit und das Vertrauen in Medienorganisationen und ihre Angebote notwendig ist.

Kontrolle und Weiterentwicklung
Sind unsere Leitlinien noch zeitgemäß? 

Da KI sich sehr schnell weiterentwickelt, kann das aktuelle KI-Niveau schon bald überholt sein. Deshalb sollten sich auch die Kodizes weiterentwickeln. Der Deutsche Journalisten-Verband schlägt dazu vor, dass Medienunter­nehmen Beauftragte benennen, die die Praxis des Einsatzes von KI im Haus mit den jeweils gültigen externen und internen Regeln abgleichen. Zudem könnten sie auch als Ansprechpersonen für Beschwerden dienen (vgl. DJV 2023). Sinnvoll ist darüber hinaus, regelmäßig zu hinterfragen, ob einzelne Aspekte der internen Regeln überarbeitet werden müssen.

Training von KI-Modellen

Biases

Zur verantwortungsvollen Nutzung von KI-Systemen gehört aus unserer Sicht auch das Bewusstsein, dass Werkzeuge, die auf KI basieren, möglicherweise ein einseitig geprägtes Weltbild transportieren. Denn obwohl sich die Strukturen der Lernalgorithmen und die Detail­­tiefe, mit der sie Daten prozessieren können, im Laufe der Zeit immer weiter­entwickelt haben, ist doch ein Aspekt von Maschi­nel­lem Lernen immer gleich geblieben: In ihrem Lernprozess analy­sieren die Lern­algorithmen große bis gigantisch große Daten­mengen. Diese Phase des Lernens ist hoch relevant. Denn hier liegt auch die grund­legende Anfälligkeit von KI für eine mögliche Voreinge­nom­menheit („bias“).  

Biases können sich dabei sowohl aus den Trainingsdaten selbst ergeben als auch durch das Feedback, das Menschen der Maschine im Trainingsprozess geben. Die Voreingenommenheit kommt dabei jedoch nicht von alleine zustande, sondern beruht auf menschlichen Entscheidungen, die vom Weltbild der Handelnden geprägt sind und die die bestehenden gesellschaftlichen Verhältnisse widerspiegeln. Ein zentraler Punkt hierbei ist die Auswahl der Daten für den Trainingsprozess. Welche Datensätze werden für das Training verwendet? Welche Bestandteile bei der Bereinigung herausgelöscht? 

Internetinhalte spielen beim Zusammenstellen von Trainings­daten­­sätzen eine enorm wichtige Rolle. Über die genauen Inhalte wissen jedoch auch Expertinnen und Experten nicht genau Bescheid (vgl. Burgess/Rogers 2024 und Bender et al. 2021). Klar ist nur, dass sie auf gigantischen Datenmengen beruhen (vgl. Bender et al. 2021). 

Ein bekannter Datensatz nennt sich Common Crawl. Nach Aus­sage des Crawling­­dienstes sind in ihm „Petabyte an Daten“ (Common Crawl 2024) vereint – allein ein Petabyte entspricht einer Million Gigabyte. Diese Daten wurden seit 2008 gesammelt, sie beinhalten Webseiten, Metadaten und Text­aus­züge. In bereinigter Form wurden diese Daten auch für das Training von ChatGPT eingesetzt.

Doch wer produziert überwiegend Inhalte im Internet? Es sind eher Personen aus der Wohlstandsgesellschaft als solche, deren Alltag sich um existenzielle Fragen des täglichen Überlebens dreht. Eine sehr pointierte Kritik zum Umgang mit Trainingsdaten haben Bender et al. 2021 formuliert. Ihrer Ansicht nach würden mit der aktuellen Praxis eine hegemoniale Weltsicht sowie die Marginalisierung unter­repräsentierter Bevölkerungsgruppen in den Trainingsdaten festgeschrieben.  

Sie kritisieren auch die Art und Weise, wie Datasets digital kuratiert werden. Ein Beispiel: Die Praktik, alle Beiträge mit Wörtern, die im Bezug zu Sex stehen, zu unterdrücken, hat ihnen zufolge auch ausgrenzende Nebenwirkungen. Denn auch, wenn dadurch in erster Linie Obszönitäten und pornographische Inhalte herausgefiltert werden sollen, hat diese grobe Art der Datensäuberung auch zur Folge, dass viele Beiträge der LGBTQ-Community entfernt werden. Und damit eben auch ihre Weltsicht.  

Weiterhin kritisieren die Autorinnen, dass die Datasets für das Training von Sprachmodellen zwar immer größer werden, zugleich aber nicht dokumentiert wird, welche Daten sie beinhalten oder um welche Daten diese Sets bereinigt wurden. Zudem würden einmal generierte Sets gern immer wieder verwendet, wodurch Ungerechtigkeiten und Marginalisierungen festgeschrieben würden, ohne dass dies überprüft werden könne.  

Für mehr Transparenz bei der Entwicklung von KI-Basismodellen setzt sich das Stanford Center for Research on Foundation Models (vgl. CRFM 2023) ein. Seine Wissenschaftlerinnen und Wissen­schaft­ler haben einen Transparenz-Index entwickelt, der Standards für Offenheit und Zugänglichkeit in der Entwicklung von KI-Basis­modellen setzt. Außerdem macht der AI-Act Entwicklerinnen und Entwicklern von Technologie Vorgaben, die sie ab 2026 erfüllen müssen.

Der Kampf um das Urheberrecht 

Die fehlende Transparenz der Traininingsdaten führt auch zu urheber­rechtlichen Fragen. Denn viele der in den Trainingsdaten erfassten Inhalte sind zwar im Internet frei zugänglich, aber möglicherweise dennoch urheberrechtlich geschützt. Doch dafür haben sich Daten­firmen beim Durchsuchen großer Teile des Internets erst mal weniger interessiert. Und von den Erstellerinnen und Erstellern der Inhalte wurde das lange Zeit kaum wahrgenommen.  

Aktuell gilt grob gesagt: Widerspricht eine Rechteinhaberin oder ein Rechteinhaber der Nutzung seiner Inhalte nicht durch einen ent­sprechenden Vermerk auf der Webseite, dann ist es grundsätzlich erlaubt. Machen die Betreibenden eines Online-Angebotes aber Gebrauch von der sogenannten Opt-out-Möglichkeit, dann dürfen ihre Inhalte nicht von Maschinen digital durchsucht und vervielfältigt werden. Wie das geht, erklären Burgess und Rogers (2024) im Digitalmagazin Wired

Medienunternehmen gehen mit dieser Situation sehr unterschiedlich um: Der deutsche Axel Springer Verlag und die amerikanische Nach­richtenagentur Associated Press haben beispielsweise Verträge mit OpenAI geschlossen: Sie erlauben, dass ihre Inhalte genutzt werden, lassen sich das aber auch bezahlen. Andere sehen das hin­gegen völlig anders. Die New York Times zum Beispiel sieht ihr Geschäfts­modell bedroht und hat gegen die Macher von ChatGPT geklagt. Sie fordert mehrere Milliarden Dollar Schadensersatz.  

Wer sich darüber informieren möchte, ob Inhalte seines Medien­unter­nehmens oder der eigenen Webseite für Trainingszwecke verwendet wurden, kann das über die Webseite „Have I been trained?“ von der Firma Spawning machen. Schon eine schnelle Suche zeigt: Inhalte vieler deutscher Medienunternehmen finden sich in den Trainingsdaten für KI. Auch hier gibt es für einzelne Inhalte die Möglichkeit eines Opt-outs.

Auswirkungen auf die Umwelt

KI verbraucht große Mengen an Wasser, wertvollen Rohstoffen und Strom. Eine verantwortungsvolle Nutzung von KI sollte des­halb auch die ökologische Nachhaltigkeit berücksichtigen. Doch anders als das menschliche Gehirn sind die für KI bislang genutzten Computer­systeme bei weitem noch nicht energie- und ressourcen­effizient. Während unser Gehirn nur eine Leistungs­aufnahme von etwa 20 Watt hat und damit etwa so viel Energie wie ein Laptop verbraucht, werden für KI-Lösungen neue fußball­feld­große Rechen­zentren gebaut. Jedes einzelne von ihnen hat den Strom­verbrauch einer Großstadt. Dennoch reicht die KI bislang noch nicht an die Leistungsfähigkeit des menschlichen Gehirns.

Wie viel Strom und andere Ressourcen verbraucht KI schon jetzt? Wie wird sich das in Zukunft entwickeln? Und welche Möglich­keiten gibt es, auch im KI-Zeitalter möglichst sparsam mit den natür­lichen Ressourcen umzugehen? Die Wissenschaft hat noch keine sehr genauen Daten zu den ökologischen Auswirkungen der KI-Nutzung, denn die großen Tech-Konzerne geben Informationen zu den von ihnen genutzten KI-Systemen und deren Energie- und Ressourcen­bedarf nur sehr zögerlich bekannt. Doch auch ohne konkrete Zahlen der Unternehmen lassen sich qualifizierte Schätzungen zum Res­sour­cenverbrauch abgeben. Forschende nähern sich dem über eine differenzierte Betrachtung des Gesamtverbrauchs an. Unterschieden wird dabei zwischen der Modellbildung, dem Training und der eigentlichen Anwendung von KI-Modellen.

Jährlicher Strombedarf größer als der von Dänemark

Mit rund 80 Prozent wird der Großteil des Stroms nach aktuellen Erkenntnissen bei der Anwendung von KI, der sogenannten Inferenz, verbraucht – der Rest entfällt auf Modellbildung und Training. Vor allem bei den öffentlich zugänglichen Modellen wie ChatGPT ist der Anteil des Verbrauchs durch die Nutzung besonders hoch. Experten schätzen, dass allein der Betrieb des im November 2022 veröffent­lichten ChatGPT 3.0 mehr als 500.000 Kilowattstunden Strom am Tag benötigt. Damit könnten 150 Haushalte ein Jahr mit Strom versorgt werden.

Anders sieht es bei KI-Anwendungen aus, die nicht für die breite Öffentlichkeit bestimmt sind, wie zum Beispiel das frühzeitige Erkennen von Fehlern oder Risiken in der industriellen Produktion. Hier ist die Zahl der Nutzenden relativ gering. Daher wird bei solchen Anwendungen meist der Ressourcenbedarf in der Trainingsphase im Verhältnis zum späteren Verbrauch bei ihrer Nutzung dominieren.  

Der jährliche weltweite Stromverbrauch aller KI-Anwendungen in Rechenzentren wird aktuell auf fast 40 Milliarden Kilowattstunden geschätzt (vgl. Avelar et al. 2023). Das ist mehr als ganz Dänemark in der gleichen Zeit an Strom benötigt. Und dabei ist der Verbrauch der Energie durch die Endgeräte, die für die Nutzung der KI zum Einsatz kommen, noch nicht berücksichtigt.

Energieverbrauch wird stark wachsen

Durch zunehmende Nutzungsmöglichkeiten wird der Bedarf durch die Anwendung von KI in Zukunft voraussichtlich noch stark steigen. Laut dem Marktforschungsunternehmen Gartner könnte KI bis zum Jahr 2030 für 3,5 Prozent des weltweiten Stromverbrauchs verantwortlich sein (vgl. Gartner 2022). Das wären – legt man die aktuellen Szenarien zur Entwicklung des Stromverbrauchs zugrunde – mehr als 1.000 Milliar­den Kilowattstunden und doppelt so viel Strom wie ganz Deutschland aktuell pro Jahr an Strom benötigt.

Optimisten hoffen darauf, dass verbesserte Modelle und für spezielle Anwendungsfälle entwickelte Hardware den Anstieg des Strom­ver­brauchs in Grenzen halten können. Realistisch muss aber berück­sichtigt werden, dass Effizienzverbesserungen in der IT bislang immer dazu geführt haben, dass noch mehr IT eingesetzt wurde. Dass es nun beim Einsatz von KI-Anwendungen nicht so kommen wird, ist sehr unwahrscheinlich. Schließlich sind die Einsatzmöglichkeiten schier unbegrenzt und die Entwicklung steht hier erst am Anfang.

Größe der Modelle bestimmt den Ressourcenbedarf

Das Ausmaß des immer weiter steigenden Ressourcenbedarfs von KI lässt sich auch gut am Stromverbrauch des Trainings ablesen. Schon 2019 errechneten amerikanische Forscher, dass das Training eines damaligen KI-Sprachmodells 656.000 Kilowattstunden Strom benötigen kann (Strubell et al. 2019). ChatGPT 3.0 hat im Jahr 2020 für das Training knapp 1,3 Millionen Kilowattstunden und damit schon fast doppelt so viel Strom verbraucht (vgl. Patterson et al. 2022). Und beim Modell ChatGPT 4.0 hat sich die Strommenge für das Training nach Schätzungen sogar auf 7,2 Millionen Kilowattstunden noch einmal fast versechsfacht (vgl. TRG Datacenters 2023). Damit könnten 1.800 Einfamilienhäuser ein Jahr mit Strom versorgt werden. 

Neben elektrischem Strom braucht KI auch Unmengen an Wasser. Forscher der University of California schätzen, dass allein das Training von ChatGPT 3.0 rund 5,4 Millionen Liter Wasser benötigt hat. Das entspricht dem täglichen Wasserbedarf von mehr als 40.000 Personen in Deutschland. Hinzu kommt noch ein Wasserverbrauch von 1,6 Litern pro einhundert Anfragen bei ChatGPT. Der Großteil des Wasser­verbrauchs entsteht bei der Erzeugung von herkömmlichem Strom sowie bei der Kühlung von Servern in Rechenzentren.

Produktion von Hardware frisst viele Ressourcen und Energie

Auch die Materialien der verwendeten Hardware verbrauchen Res­sour­cen – darunter Gold, Silber und andere seltene Elemente. Zudem hat die Herstellung von Computern und Servern einen nennens­wer­ten Energiebedarf und produziert Treibhausgas­emis­sionen. Lebens­zyklus­analysen von aktuellen Servern zeigen, dass zwischen zehn und 40 Prozent des gesamten Energiebedarfs und der Treib­haus­­gas­­emissionen auf die Herstellung der Geräte zurück­zuführen sind.

Und die Hardware wird mehr. Nach Einschätzung von Analystinnen und Analysten wird sich das jährliche Volumen der KI-Hardwareverkäufe zwischen 2023 und 2033 um den Faktor 9 auf fast 500 Milliarden US-Dollar erhöhen (Precedence Research 2024). Beeindruckender Beleg für dieses Wachs­­­tum ist die Firma Nvidia, die Hochleistungschips herstellt. Anfang 2024 kam Nvidia mit der Produktion kaum hinterher. Aufgrund der stark gestiegenen Nachfrage ist der Chiphersteller zu einer der fünf wert­vollsten Firmen der Welt geworden – gleich hinter Apple, Micro­soft, Alphabet (Google) und Amazon.

Ideen für eine nachhaltigere Nutzung von KI-Anwendungen

Oft wird das Argument vorgebracht, dass KI-Systeme mit regenerativ erzeugtem Strom versorgt und die Umweltauswirkungen dadurch im Zaum gehalten werden können. Diese Argumentation ist aber nur teilweise stichhaltig. Zwar kann dies den negativen Einfluss der Technologie auf die Treibhausgasemissionen verringern. Der Blick muss aber auch darauf gelenkt werden, ob es genügend regenerative Energie gibt oder KI möglicherweise E-Autos, Wärmepumpen oder der Industrie umweltfreundlichen Strom wegnimmt. Klimafreundlich können die KI-Rechenzentren daher nur sein, wenn ihr Strom aus neu errichteten regenerativen Stromerzeugungsanlagen kommt. 

Doch selbst 100 Prozent grüner Strom für die Rechenzentren, in denen KI-Prozesse laufen, reichen nicht, um die Umweltauswirkungen von KI zu neutralisieren. Denn auch dann bleibt noch der hohe Ver­brauch von Wasser und Materialien für die Herstellung der not­wen­digen Geräte und Anlagen, die bei der Betrachtung der Auswir­kungen auf die Umwelt stark ins Gewicht fallen.

Eine Möglichkeit besteht darin, die Modelle effizienter zu machen – zum Beispiel indem die Modelle mit weniger, aber qualitativ hoch­wer­tigeren Daten trainiert werden. In diesem Punkt unterscheiden sich Mensch und KI nur wenig. Je schlechter die Daten, also das Lehr­material, desto weniger wird gelernt. Zudem kann der bewusste Einsatz von KI helfen, Ressourcen zu sparen.

Konstruktiver KI-Kompass

Künstliche Intelligenz verstehen und nutzen, um die eigene journalistische Arbeit konstruktiver zu machen – das bietet der Konstruktive KI-Kompass.

Unsere Inhalte gibt es alle online. Zudem steht das geballte Wissen im gleichnamigen E-Book kostenlos zum Download bereit:

Übersicht und Download