Apple MM1 en familj av multimodala LLM:er med upp till 30 miljarder parametrar

Apple har vista upp MM1 en familj av multimodala Large Language Models (LLM) som är state-of-the-art (SOTA) i pre-träningsmått och presterar konkurrenskraftigt efter finjustering.

MM1-modellerna har upp till 30 miljarder parametrar, inklusive både täta modeller och varianter av mixture-of-experts (MoE). Denna tillkännagivelse kommer från en forskningsartikel med titeln ”MM1: Metoder, analys & insikter från multimodal LLM pre-träning”, som diskuterar vikten av olika arkitekturkomponenter och dataval för att bygga presterande multimodala LLM.

Forskningen belyser betydelsen av en noggrann blandning av bildtextning, interfolierad bildtext och endast textdata för att uppnå SOTA få-shot-resultat över flera riktmärken. Det understryker också att bildkodaren, tillsammans med bildupplösningen och bildtokenantalet, har en betydande inverkan på modellens prestanda, medan vision-språkkontaktens design är av jämförelsevis försumbar betydelse.

⚙️ • Apples nya utbildningsmetod förbättrar språkmodellernas bildförståelse och textningsförmåga. 
🔗 • Metoden kombinerar olika datatyper som bild-bildtextpar, bild-text-samspel och ren text för träning. 
📷 • Modellernas prestanda påverkas av valet av bildkodare och bildupplösning. 
💰 • Apple investerar 1 miljard dollar varje år för att integrera AI i sitt produktsortiment. 
📅 • Detaljer om Apples AI-initiativ kommer att avslöjas senare, eventuellt vid WWDC-evenemanget i juni. 
🔒 • Apple positionerar sig som en konkurrent inom AI-teknik med fokus på användarnas integritet och avancerad maskininlärning.

Apples investering i AI och utvecklingen av MM1-modeller återspeglar ett betydande steg framåt i företagets ansträngningar att integrera generativ AI-kapacitet i sina produkter. Forskningen tyder på att Apple är på väg att spendera 1 miljard dollar per år på AI-utveckling, i syfte att integrera dessa teknologier i Siri, Messages, Apple Music och andra appar och tjänster.