Google presenterar Gemini 1.5 Pro med en stor uppgradering

Gemini 1.5 Pro bygger vidare på Google’s senaste forskning inom Transformer och Mixture-of-Experts (MoE)-arkitektur. Modellen består av flera mindre ”expert” neurala nätverk som aktiveras selektivt beroende på vilken typ av input de får. Denna specialisering förbättrar modellens effektivitet avsevärt, vilket gör att den kan lära sig komplexa uppgifter snabbare, bibehålla kvalitet och vara mer effektiv under träning och drift.

Den nya modellen har en standardiserad kontextkapacitet på 128 000 tokens men kan även testas med upp till 1 miljon tokens av en begränsad grupp utvecklare och företagskunder. Denna utökning av möjlig kontext bidrar till otaliga nya möjligheter för skapande och byggande av applikationer genom AI.

Gemini 1.5 verkar lovande med sin stora kontextkapacitet, Det låter som att den verkligen kan hantera en hel del. Med så många tokens borde den kunna hantera en hel del olika typer av texter. Det låter riktigt imponerande faktiskt.

Vad är tokens och vad ett Context window?

Ett context window, även kallat ett glidande fönster, är en teknik som används inom naturlig språkbehandling (NLP) för att analysera textdata. Det är ett sätt att bryta ner text i mindre bitar, kallade tokens, och sedan analysera relationerna mellan dessa tokens inom ett visst sammanhang.

Context windows används i olika NLP-uppgifter, såsom:

  • Språkmodellering: Att förutsäga nästa ord i en sekvens baserat på de föregående orden.
  • Maskinöversättning: Att översätta text från ett språk till ett annat.
  • Textklassificering: Att kategorisera textdokument i olika ämnen.

Tokens är de minsta enheterna av text som analyseras inom ett context window

  • Ord: Enstaka ord, inklusive skiljetecken.
  • N-gram: Sekvenser av n ord, t.ex. bigram (par av ord) eller trigram (tripplar av ord).
  • Symboler: Specialtecken, såsom skiljetecken, parenteser och siffror.

Tokens används för att representera textdata på ett sätt som gör det möjligt för NLP-modeller att förstå och analysera den. Genom att analysera tokens inom ett context window kan modeller identifiera mönster, relationer och betydelser i texten.

Kraftfull datahantering

Med förmågan att hantera upp till 1 miljon tokens kan Gemini 1.5 Pro behandla enorma mängder information på en gång. Detta innefattar en timmes video, 11 timmars audio, kodbas med över 30 000 rader kod, eller över 700 000 ord. Denna förmåga att bearbeta så pass stora informationsmängder i ett svep gör modellen lämpad för en rad olika och komplexa användningsområden.

Lägg till en hel längd video

Gemini 1.5 Pro kan också resonera över upp till 1 timmes video. När du bifogar en video bryter Google AI Studio ner den i tusentals bildrutor (utan ljud), och sedan kan du utföra mycket sofistikerade resonemang och problemlösningsuppgifter eftersom Gemini-modellerna är multimodala.

Kompatibilitet och prestanda

Gemini 1.5 Pro är kompatibel med AI Studio och Vertex AI, och trots dess midjestorlek presterar den nästan lika bra som Gemini 1.0 Ultra, vilket tidigare var Googles mest kapabla modell. Den nya modellen är effektivare vilket innebär att den använder mindre beräkningskraft för att uppnå jämförbara resultat.

  • Gemini 1.5 är nästa generations modell som använder en ny Mixture-of-Experts (MoE)-metod för att förbättra effektiviteten och erbjuder ett 1 miljon token-kontextfönster.
  • Gemini 1.5 Pro, den mellanstora multimodala modellen, är optimerad för skalning över ett brett utbud av uppgifter och är tillgänglig för privat förhandsvisning i Google AI Studio.
  • Modellen har ett nytt, experimentellt 1 miljon tokens kontextfönster och är tillgänglig på 38 språk i över 180 länder och territorier.
  • Gemini 1.5 Pro kommer som standard med ett kontextfönster på 128 000 token, men den privata förhandsgranskningen kommer att ha tillgång till det experimentella kontextfönstret på 1 miljon token.
  • Utvecklare kan ladda upp flera filer, som PDF-filer, och ställa frågor i Google AI Studio. Det större sammanhangsfönstret gör att modellen kan ta in mer information, vilket gör resultatet mer konsekvent, relevant och användbart. Utvecklare kan anpassa Gemini för specifika behov på några minuter inifrån Google AI Studio och integrera Gemini API för att bygga nya AI-drivna funktioner.
  • Priset för Gemini 1.0 Pro modellen har uppdaterats och erbjuder en bra balans mellan kostnad och prestanda för många AI-uppgifter. Den stabila versionen är prissatt 50 % lägre för textinmatning och 25 % lägre för utgångar än tidigare aviserat.
  • Räkna med viss fördröjning i den här förhandsvisningsversionen på grund av den experimentella karaktären hos funktionen för stora sammanhangsfönster, men Google är glada över att starta en gradvis lansering när de fortsätter att finjustera modellen och få feedback.

Google uppmuntrar användare att delta i Gemini Pro 1.5 uppgraderingen och bidra till plattformens förbättring. Genom att samarbeta kan användare hjälpa till att skapa en mer robust och användbar plattform för alla.

blog.google

https://gemini.pro

Google AI Studio