Googles AI ChatDirector är en forskningsprototyp som förvandlar traditionella videokonferenser till 3D-videoavatarer

  • Google forskar om att förbättra videokonferenser genom att använda 3D-avatarer och automatiska layoutövergångar för att förbättra närvarokänslan och engagemanget.
  • ChatDirector, en ny prototyp, använder sig av taldriven visuell assistans i en rumsligt medveten mötesmiljö.

Google ChatDirector är en forskningsprototyp som syftar till att förbättra videokonferenser genom att använda 3D-avatarer, delade 3D-miljöer och automatiska layoutövergångar baserade på tal. Systemet är utformat för att skapa en mer dynamisk och realistisk mötesupplevelse genom att inkludera rumslig medvetenhet och visuell assistans som hjälper deltagarna att följa konversationer och bibehålla engagemang.

ChatDirector använder teknologier som U-Net och MediaPipe för att rekonstruera deltagarnas visuella närvaro som 3D-porträttavatarer, vilket förbättrar känslan av närvaro och samspel jämfört med traditionella 2D-videokonferenssystem.

Googles ChatDirector är en teknik som förbättrar videokonferenser genom att använda rumsmedveten scenerendering och talstyrda layoutövergångar. Detta innebär att systemet kan anpassa visningen av deltagare i ett videosamtal baserat på deras position och interaktioner i rummet, samt göra övergångar mellan olika visningslägen baserade på talaktivitet. Tekniken syftar till att skapa en mer naturlig och engagerande upplevelse vid distansmöten genom att optimera hur deltagarna visas på skärmen.

Vilka teknologier används för att skapa 3D-porträttavatarer i ChatDirector?

För att skapa 3D-porträttavatarer i ChatDirector används följande teknologier:

  1. U-Net: En lättvikts-djupinlärningsnätverk som används för djupinlärning från realtids-RGB-webbkamera video.
  2. MediaPipe Selfie Segmentation Model: Används för att segmentera förgrunden i bilden.
  3. MediaPipe Face Detection: Används för att upptäcka huvudrörelser och justera den virtuella kameran för att skapa en visuell parallaxeffekt.
  4. Web Speech API: Används för taligenkänning och att identifiera nyckelord som styr layoutövergångar och avatarbeteenden.
  5. WebRTC: Används för dataöverföring mellan användare, inklusive ljud, taltext, RGB-bilder och djupbilder.

Dessa teknologier kombineras för att rekonstruera och visa 3D-porträttavatarer i en rumsligt medveten mötesmiljö.

Läs mer på Google Blog

Leave a Reply

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *