OpenAI Google och Meta gått utanför ramarna för YouTubes regler genom att samla in enorma mängder data

youtube-
  • Ledande teknikföretag OpenAI, Google och Meta brottades med en brist på data som behövdes för att träna avancerade AI-system.
  • OpenAI använde Whisper, ett taligenkänningsverktyg, för att transkribera över en miljon timmar YouTube-innehåll, ett drag som kan strida mot YouTubes policyer.
  • Google och Meta engagerade sig också i metoder för att skaffa AI-utbildningsdata som väckte oro, inklusive transkribering av YouTube-videor och övervägande att köpa publiceringsrättigheter.

Techjättarna som OpenAI, Google och Meta har skurit hörn genom att ignorerat företagspolicyer och diskuterat att bryta mot lagen för att samla in data till sina AI-produkter. De har använt sig av metoder såsom transkribering av YouTube-videor och utnyttjande av användardata för att träna sina AI-modeller, vilket har lett till debatt och rättsliga frågor gällande upphovsrätt och användning av andras verk.

OpenAI och Google har båda använt sig av potentiellt obehörig datasökning från YouTube för att träna sina AI-modeller. Google tillät OpenAI att använda YouTube-data eftersom de själva gjorde samma sak och riskerade att kränka upphovsrätterna. Diskussioner har även förts om att skrapa data från andra källor, som Google Docs och restaurangrecensioner på Google Maps, för att träna AI-modeller.

Varför tillät Google OpenAI att använda YouTube-data trots att det potentiellt kränkte upphovsrätterna?


Google tillät OpenAI att använda YouTube-data trots att det potentiellt kränkte upphovsrätterna av flera anledningar. För det första hade Google självt använt data från YouTube för att träna sina egna AI-modeller, vilket placerade dem i en svår position att kritisera eller vidta åtgärder mot OpenAI för att göra detsamma. Detta skapar en sorts ömsesidig förståelse eller en icke-uttalad överenskommelse mellan de två företagen.

För det andra nämner rapporteringen att YouTube:s VD Neal Mohan var undvikande när han blev tillfrågad om OpenAI hade använt data från YouTube, vilket tyder på att det fanns en viss tveksamhet eller osäkerhet kring huruvida företagets användarvillkor hade brutits. Detta kan antyda att Google inte ville konfrontera frågan direkt, möjligen på grund av sin egen inblandning i liknande aktiviteter.

Slutligen pekar rapporteringen på att det finns ett växande behov av stora datamängder för att träna avancerade AI-modeller, och att teknikjättarna ibland överväger tvivelaktiga metoder för att skaffa denna data. Med andra ord, drivkraften att förbättra och utveckla AI-teknologi kan ha vägt tyngre än de potentiella riskerna för upphovsrättsintrång. Dessutom har Google ändrat sina användarvillkor för att tillåta användning av offentliga Google Docs och andra internetdata för att träna sina AI-modeller, vilket visar en riktning mot mer liberal användning av data för AI-utbildning inom industrin.

Google, Meta och OpenAI vidtagit flera åtgärder för att skaffa tillräcklig data till sina AI-modeller

Transkribering av YouTube-videor: OpenAI använde sin taligenkänningsteknik, Whisper, för att transkribera över en miljon timmar av YouTube-videor för att träna sin AI-modell GPT-4, vilket kan ha stridit mot YouTubes användarvillkor.

Utvidgning av användarvillkor: Google har breddat sina användarvillkor för att kunna dra nytta av offentligt tillgängliga dokument och annat material online för sina AI-produkter. Detta inkluderar potentiellt innehåll från Google Docs och andra gratisappar, även om det finns integritetsbegränsningar som kan hindra detta.

Utnyttjande av användardata: Både Google och Meta har övervägt att använda användargenererat innehåll från sina plattformar, som sökfrågor och sociala medieinlägg, men de är begränsade av sekretesslagar och sina egna policyer.

Köp av upphovsrätter: Meta har diskuterat möjligheten att köpa boklicensrättigheter eller till och med ett helt förlag som Simon & Schuster för att få tillgång till mer data för att träna sina AI-modeller.

Användning av syntetisk data: För att hantera bristen på data överväger OpenAI och andra att använda syntetisk data som genereras av AI-modeller själva. Detta innebär att AI-systemen skapar ytterligare data för att utveckla bättre versioner av sig själva.

Utforskning av kreativa lösningar: Techföretagen har börjat utforska möjligheten att använda två AI-modeller där en genererar data och den andra bedömer och sorterar bort dålig information.

Leave a Reply

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *