Auf seinem Höhepunkt in den frühen 2000er Jahren war Photobucket die weltweit führende Website für Bilder. Als mediales Rückgrat für einstmals angesagte Dienste wie Myspace und Friendster zählte Photobucket 70 Millionen Nutzer und machte fast die Hälfte des US-Online-Fotomarktes aus.

Heute nutzen nur noch 2 Millionen Menschen Photobucket, wie der Analysedienst Similarweb berichtet. Aber die generative KI-Revolution könnte das Unternehmen zu neuem Leben erwecken.

CEO Ted Leonard, der das 40-köpfige Unternehmen von Edwards, Colorado, aus leitet, sagte gegenüber Reuters, er führe Gespräche mit mehreren Technologieunternehmen, um die 13 Milliarden Fotos und Videos von Photobucket zu lizenzieren und damit generative KI-Modelle zu trainieren, die als Reaktion auf Textaufforderungen neue Inhalte produzieren können.

Er hat über Preise zwischen 5 Cent und 1 Dollar pro Foto und mehr als 1 Dollar pro Video gesprochen, sagte er, wobei die Preise je nach Käufer und Art des gesuchten Bildmaterials stark variieren.

Wir haben mit Unternehmen gesprochen, die sagten: "Wir brauchen viel mehr", fügte Leonard hinzu. Ein Käufer sagte ihm, dass er mehr als eine Milliarde Videos benötige, mehr als seine Plattform hat.

"Man kratzt sich am Kopf und fragt sich, woher man das hat.

Photobucket lehnte es unter Berufung auf Geschäftsgeheimnisse ab, seine potenziellen Käufer zu nennen. Die laufenden Verhandlungen, über die bisher nicht berichtet wurde, deuten darauf hin, dass das Unternehmen auf Inhalten im Wert von Milliarden von Dollar sitzen könnte, und geben einen Einblick in einen lebhaften Datenmarkt, der im Zuge der Dominanz der generativen KI-Technologie entsteht.

Tech-Giganten wie Google, Meta und das von Microsoft unterstützte OpenAI haben zunächst Unmengen von Daten verwendet, die kostenlos aus dem Internet geholt wurden, um generative KI-Modelle wie ChatGPT zu trainieren, die die menschliche Kreativität nachahmen können. Sie haben erklärt, dass dies sowohl legal als auch ethisch vertretbar ist, obwohl sie von einer Reihe von Urheberrechtsinhabern wegen dieser Praxis verklagt werden.

Gleichzeitig zahlen diese Technologieunternehmen im Stillen für Inhalte, die hinter Bezahlschranken und Anmeldebildschirmen verborgen sind. So entsteht ein versteckter Handel mit allem, von Chat-Protokollen bis hin zu längst vergessenen persönlichen Fotos aus verblichenen Social Media Apps.

"Es gibt jetzt einen Ansturm auf Urheberrechtsinhaber, die über private Sammlungen verfügen, die nicht abgegriffen werden können", sagt Edward Klaris von der Anwaltskanzlei Klaris Law, die nach eigenen Angaben Eigentümer von Inhalten bei Geschäften im Wert von jeweils mehreren zehn Millionen Dollar berät, um Archive von Fotos, Filmen und Büchern für das KI-Training zu lizenzieren.

Reuters hat mit mehr als 30 Personen gesprochen, die sich mit KI-Datengeschäften auskennen, darunter aktuelle und ehemalige Führungskräfte der beteiligten Unternehmen, Anwälte und Berater, um diesen jungen Markt erstmals eingehend zu untersuchen. Dabei wurden die Arten von Inhalten, die gekauft werden, die Preise, die zustande kommen, sowie aufkommende Bedenken über das Risiko, dass persönliche Daten ohne das Wissen oder die ausdrückliche Zustimmung der Menschen in KI-Modelle einfließen, detailliert beschrieben.

OpenAI, Google, Meta, Microsoft, Apple und Amazon lehnten es ab, sich für diesen Artikel zu bestimmten Datengeschäften und Diskussionen zu äußern. Microsoft und Google verwiesen Reuters jedoch auf Verhaltenskodizes von Anbietern, die Bestimmungen zum Datenschutz enthalten.

Google fügte hinzu, dass es "sofortige Maßnahmen ergreifen würde, bis hin zur Kündigung" seiner Vereinbarung mit einem Lieferanten, wenn es einen Verstoß entdeckt.

Viele große Marktforschungsunternehmen sagen, dass sie die Größe des undurchsichtigen Marktes für KI-Daten nicht einmal ansatzweise abschätzen können, da die Unternehmen ihre Vereinbarungen oft nicht offenlegen. Die Marktforscher, die dies tun, wie z.B. Business Research Insights, schätzen den Markt auf etwa 2,5 Milliarden Dollar und prognostizieren, dass er innerhalb eines Jahrzehnts auf fast 30 Milliarden Dollar anwachsen könnte.

GOLDRAUSCH DER GENERATIVEN DATEN

Die Datenflut kommt zustande, da die Hersteller großer generativer KI-Modelle zunehmend unter Druck geraten, die riesigen Mengen an Inhalten, die sie in ihre Systeme einspeisen, zu berücksichtigen. Dieser als "Training" bekannte Prozess erfordert intensive Rechenleistung und dauert oft Monate.

Tech-Unternehmen sagen, dass die Technologie zu kostspielig wäre, wenn sie nicht auf riesige Archive mit kostenlos gescrapten Webseitendaten zurückgreifen könnten, wie sie von der gemeinnützigen Datenbank Common Crawl bereitgestellt werden, die sie als "öffentlich zugänglich" bezeichnen.

Ihr Ansatz hat jedoch eine Welle von Urheberrechtsklagen und behördlichen Auflagen nach sich gezogen und die Verlage dazu veranlasst, ihre Websites mit einem Code zu versehen, der das Scraping blockiert.

Als Reaktion darauf haben die Hersteller von KI-Modellen damit begonnen, sich gegen Risiken abzusichern und Datenlieferketten zu sichern, sowohl durch Vereinbarungen mit den Eigentümern von Inhalten als auch durch eine aufkeimende Branche von Datenmaklern, die entstanden ist, um die Nachfrage zu befriedigen.

In den Monaten nach dem Debüt von ChatGPT Ende 2022 haben beispielsweise Unternehmen wie Meta, Google, Amazon und Apple Vereinbarungen mit dem Bildanbieter Shutterstock getroffen, um Hunderte von Millionen von Bildern, Videos und Musikdateien aus dessen Bibliothek für das Training zu nutzen, so eine mit den Vereinbarungen vertraute Person.

Die Verträge mit den großen Tech-Unternehmen lagen zunächst zwischen 25 und 50 Millionen Dollar, wurden aber später meist erweitert, sagte Jarrod Yahes, Chief Financial Officer von Shutterstock, gegenüber Reuters. Kleinere Tech-Unternehmen sind dem Beispiel gefolgt und haben in den letzten zwei Monaten eine neue "Flut von Aktivitäten" ausgelöst, fügte er hinzu.

Yahes lehnte es ab, sich zu den einzelnen Verträgen zu äußern. Die Vereinbarung mit Apple und der Umfang der anderen Verträge wurden bisher nicht veröffentlicht.

Ein Konkurrent von Shutterstock, Freepik, teilte Reuters mit, dass er mit zwei großen Technologieunternehmen Vereinbarungen über die Lizenzierung des größten Teils seines Archivs von 200 Millionen Bildern zu 2 bis 4 Cent pro Bild getroffen hat. Fünf weitere ähnliche Verträge seien in der Pipeline, sagte CEO Joaquin Cuenca Abela, der es ablehnte, die Käufer zu nennen.

OpenAI, ein früher Kunde von Shutterstock, hat außerdem Lizenzvereinbarungen mit mindestens vier Nachrichtenorganisationen unterzeichnet, darunter The Associated Press und Axel Springer. Thomson Reuters, der Eigentümer von Reuters News, sagte separat, dass es Verträge zur Lizenzierung von Nachrichteninhalten abgeschlossen hat, um KI beim Training großer Sprachmodelle zu unterstützen, gab aber keine Details bekannt.

INHALTE AUS ETHISCHEN QUELLEN

Es entsteht auch eine Branche von KI-Datenunternehmen, die sich die Rechte an realen Inhalten wie Podcasts, Kurzvideos und Interaktionen mit digitalen Assistenten sichern und gleichzeitig Netzwerke von Kurzzeitarbeitern aufbauen, um maßgeschneiderte Bilder und Sprachproben von Grund auf zu produzieren, ähnlich einer Uber-ähnlichen Gig Economy für Daten.

Das in Seattle ansässige Unternehmen Defined.ai lizenziert Daten an eine Reihe von Unternehmen wie Google, Meta, Apple, Amazon und Microsoft, sagte CEO Daniela Braga gegenüber Reuters.

Die Preise variieren je nach Käufer und Art des Inhalts, aber Braga sagte, dass die Unternehmen im Allgemeinen bereit sind, 1 bis 2 Dollar pro Bild, 2 bis 4 Dollar pro Kurzvideo und 100 bis 300 Dollar pro Stunde für längere Filme zu zahlen. Der Marktpreis für Text liegt bei 0,001 $ pro Wort, fügte sie hinzu.

Bilder mit Nacktheit, die einen besonders sensiblen Umgang erfordern, kosten zwischen $5 und $7, sagte sie.

Defined.ai teilt sich diese Einnahmen mit den Anbietern von Inhalten, sagte Braga. Defined.ai vermarktet seine Datensätze als "ethische Quellen", da es die Zustimmung der Personen einholt, deren Daten es verwendet, und persönliche Informationen entfernt, fügte sie hinzu.

Einer der Lieferanten des Unternehmens, ein in Brasilien ansässiger Unternehmer, sagte, er zahle den Eigentümern der Fotos, Podcasts und medizinischen Daten, die er beschafft, etwa 20 % bis 30 % der gesamten Geschäftssumme.

Die teuersten Bilder in seinem Portfolio sind diejenigen, die zum Trainieren von KI-Systemen verwendet werden, die Inhalte wie Gewaltdarstellungen blockieren, die von den Technologieunternehmen gesperrt werden, sagte der Lieferant, der unter der Bedingung sprach, dass sein Unternehmen nicht identifiziert wird, da es sich um ein Geschäft handelt.

Um diese Anfragen zu erfüllen, beschafft er Bilder von Tatorten, Gewalt in Konflikten und Operationen - hauptsächlich von der Polizei, freiberuflichen Fotojournalisten bzw. Medizinstudenten - oft in Ländern in Südamerika und Afrika, wo die Verbreitung von grafischen Bildern üblicher ist, sagte er.

Er sagte, dass er Bilder von freiberuflichen Fotografen aus dem Gazastreifen seit dem Beginn des Krieges im Oktober erhalten hat, sowie einige aus Israel zu Beginn der Feindseligkeiten.

Sein Unternehmen stellt Krankenschwestern ein, die es gewohnt sind, gewalttätige Verletzungen zu sehen, um die Bilder, die für ungeübte Augen verstörend sind, zu anonymisieren und zu kommentieren, fügte er hinzu.

'ICH WÜRDE ES RISKANT FINDEN'

Während die Lizenzierung einige rechtliche und ethische Probleme lösen könnte, wirft die Wiederbelebung der Archive alter Internetnamen wie Photobucket als Treibstoff für die neuesten KI-Modelle andere Fragen auf, insbesondere in Bezug auf die Privatsphäre der Nutzer, so viele der befragten Branchenvertreter.

KI-Systeme wurden dabei ertappt, wie sie exakte Kopien ihrer Trainingsdaten ausspuckten, z.B. das Wasserzeichen von Getty Images, wörtliche Absätze von Artikeln der New York Times und Bilder von echten Menschen. Das bedeutet, dass private Fotos oder intime Gedanken einer Person, die vor Jahrzehnten gepostet wurden, möglicherweise ohne vorherige Ankündigung oder ausdrückliche Zustimmung in generativen KI-Ausgaben landen könnten.

Der CEO von Photobucket, Leonard, beruft sich auf eine Aktualisierung der Nutzungsbedingungen des Unternehmens im Oktober, die ihm das "uneingeschränkte Recht" einräumt, hochgeladene Inhalte für das Training von KI-Systemen zu verkaufen. Er sieht die Lizenzierung von Daten als Alternative zum Verkauf von Anzeigen.

"Wir müssen unsere Rechnungen bezahlen, und das könnte uns die Möglichkeit geben, weiterhin kostenlose Konten zu unterstützen", sagte er.

Defined.ai's Braga sagte, dass sie es vermeidet, Inhalte von "Plattform"-Unternehmen wie Photobucket zu erwerben und es vorzieht, Social-Media-Fotos von Influencern zu beziehen, die sie erstellt haben und die ihrer Meinung nach einen klareren Anspruch auf Lizenzrechte haben.

"Ich fände das sehr riskant", sagte Braga über Plattforminhalte. "Wenn es eine KI gibt, die etwas generiert, das einem Bild von jemandem ähnelt, der das nie genehmigt hat, ist das ein Problem.

Photobucket ist nicht die einzige Plattform, die sich für die Lizenzierung einsetzt. Die Muttergesellschaft von Tumblr, Automattic, erklärte letzten Monat, dass sie Inhalte mit "ausgewählten KI-Unternehmen" teilt. Im Februar berichtete Reuters, dass Reddit eine Vereinbarung mit Google getroffen hat, um seine Inhalte für das Training der KI-Modelle von Google zur Verfügung zu stellen.

Vor seinem Börsengang im März gab Reddit bekannt, dass sein Geschäft mit der Datenlizenzierung Gegenstand einer Untersuchung der US Federal Trade Commission ist und räumte ein, dass es mit den sich entwickelnden Vorschriften zum Datenschutz und zum geistigen Eigentum in Konflikt geraten könnte.

Die FTC, die Unternehmen im Februar davor gewarnt hatte, die Nutzungsbedingungen für die Nutzung von KI rückwirkend zu ändern, lehnte es ab, die Untersuchung von Reddit zu kommentieren oder mitzuteilen, ob sie sich mit anderen Geschäften mit Trainingsdaten befasst. (Berichte von Katie Paul in New York und Anna Tong in San Francisco; weitere Berichte von Krystal Hu in New York; Bearbeitung durch Kenneth Li und Pravin Char)