Microsoft hat am 2. April 2026 drei hauseigene KI-Modelle vorgestellt: MAI-Transcribe-1 für Spracherkennung, MAI-Voice-1 für Sprachgenerierung und MAI-Image-2 für Bildgenerierung. Alle drei sind ab sofort über die Microsoft Foundry Plattform verfügbar. Der Schritt markiert eine klare strategische Richtung: Microsoft baut eigene Grundlagenmodelle und wird unabhängiger von OpenAI.
Was steckt hinter den MAI-Modellen?
MAI steht für Microsoft Artificial Intelligence und bezeichnet Microsofts eigene Modellfamilie. Bisher war Microsoft vor allem dafür bekannt, Modelle von Partnern wie OpenAI, Meta oder Mistral über Azure bereitzustellen. Mit den drei neuen MAI-Modellen entwickelt Microsoft jetzt erstmals eigene leistungsfähige Grundlagenmodelle für Sprache, Audio und Bild.
Entwickelt wurden die Modelle vom sogenannten Superintelligenz-Team innerhalb von Microsoft. Alle drei Modelle laufen über Microsoft Foundry und sind bereits in Produkte wie Copilot, Bing, PowerPoint und Azure Speech integriert.
Die drei Modelle im Überblick
MAI-Transcribe-1: Spracherkennung in 25 Sprachen
MAI-Transcribe-1 ist ein Speech-to-Text-Modell, das gesprochene Sprache in Text umwandelt. Die wichtigsten Eckdaten:
- 25 Sprachen werden unterstützt, darunter Deutsch, Englisch, Französisch, Spanisch, Japanisch, Chinesisch und Arabisch
- Niedrigste Wortfehlerrate aller getesteten Modelle auf dem FLEURS-Benchmark mit durchschnittlich 3,9 %
- Schlägt damit etablierte Konkurrenten wie OpenAIs Whisper, GPT-Transcribe, Googles Gemini 3.1 Flash-Lite und ElevenLabs' Scribe v2
- 2,5-mal schneller als Microsofts bisheriges Azure Fast Angebot
- Preis: 0,36 US-Dollar pro Audiostunde
Für Unternehmen, die regelmäßig Meetings, Interviews oder Kundengespräche transkribieren, ist das eine relevante Entwicklung. Die Kombination aus hoher Genauigkeit, Mehrsprachigkeit und niedrigem Preis macht professionelle Transkription deutlich zugänglicher.
MAI-Voice-1: Sprachgenerierung in Echtzeit
MAI-Voice-1 ist ein Text-to-Speech-Modell, das aus Text natürlich klingende Sprache erzeugt:
- 60 Sekunden Audio in unter einer Sekunde auf einer einzelnen GPU
- Unterstützung für Custom Voices, also individuelle Stimmen auf Basis einer nur 10-sekündigen Audioaufnahme
- Natürliche, ausdrucksstarke Sprachausgabe
- Preis: 22 US-Dollar pro 1 Million Zeichen
Die Custom-Voice-Funktion erfordert einen Genehmigungsprozess im Rahmen von Microsofts Responsible-AI-Richtlinien. Das ist sinnvoll, denn Voice Cloning birgt Missbrauchspotenzial.
MAI-Image-2: Bildgenerierung auf Top-3-Niveau
MAI-Image-2 ist Microsofts neues Text-to-Image-Modell:
- Platz 3 auf der Arena.ai-Bestenliste, direkt hinter Googles Gemini 3.1 Flash und OpenAIs GPT Image 1.5
- Stärken bei fotorealistischen Bildern, Text-Rendering in Bildern (z.B. für Infografiken) und komplexen Szenen
- Entwickelt in Zusammenarbeit mit Fotografen, Designern und Visual Storytellern
- Mindestens doppelt so schnell wie das Vorgängermodell
- Preis: 5 US-Dollar pro 1 Million Tokens (Text-Input), 33 US-Dollar pro 1 Million Tokens (Bild-Output)
Gut zu wissen: Bei ConRat AI stehen dir bereits mehrere KI-Bildgeneratoren in einer Oberfläche zur Verfügung, darunter GPT Image 1.5, Flux.2 Pro und Nano Banana. Sobald neue Modelle wie MAI-Image-2 für den produktiven Einsatz verfügbar sind, prüfen wir eine Integration. Alle Bildgenerierungen laufen DSGVO-konform über EU-Server.
Warum baut Microsoft eigene Modelle?
Der strategische Hintergrund ist klar: Microsoft will weniger abhängig von OpenAI werden. Trotz der milliardenschweren Partnerschaft zeigt der Konzern, dass er den KI-Stack zunehmend selbst kontrollieren will. Die Gründe dafür sind nachvollziehbar:
- Kostenkontrolle: Eigene Modelle reduzieren Lizenzkosten für externe Technologie
- Produktintegration: Modelle, die direkt für Copilot, Bing und Office entwickelt werden, lassen sich nahtloser einbinden
- Differenzierung: Microsoft kann eigene Stärken ausspielen, statt die gleichen Modelle wie jeder andere Anbieter zu nutzen
- Geschwindigkeit: Unabhängigkeit von Release-Zyklen externer Partner
Für Unternehmen, die Azure nutzen, ist das eine positive Entwicklung. Mehr eigene Modelle bedeuten mehr Auswahl, potenziell niedrigere Preise und engere Integration in die Microsoft-Welt.
Was bedeutet das für dein Unternehmen?
Die drei MAI-Modelle sind zunächst über Microsoft Foundry für Entwickler verfügbar. Für den direkten Einsatz in kleinen und mittelständischen Unternehmen sind sie aktuell noch nicht als fertige Anwendung nutzbar. Trotzdem gibt es relevante Aspekte:
- Transkription: Wenn du regelmäßig Meetings oder Kundengespräche verschriftlichst, wird MAI-Transcribe-1 mittelfristig in Tools wie Microsoft Teams und Copilot einfließen. Die Qualität der automatischen Transkription dürfte spürbar steigen.
- Voice-Content: Podcasts, Erklärvideos oder automatisierte Telefonansagen könnten durch MAI-Voice-1 einfacher und günstiger produziert werden.
- Bildgenerierung: MAI-Image-2 wird voraussichtlich in Microsoft Designer und PowerPoint integriert. Für Marketing-Teams, die regelmäßig visuelle Inhalte erstellen, bedeutet das bessere KI-Bilder direkt in den Office-Tools.
Tipp: Du willst KI-Bildgenerierung, Textverarbeitung und Recherche schon heute in einer Plattform nutzen, ohne auf einzelne Tool-Releases warten zu müssen? Bei ConRat AI bündelst du über 10 KI-Tools in einer Oberfläche und kannst sofort loslegen. 30 Tage kostenlos testen auf www.conrat-ai.de.
Unser Fazit
Microsofts MAI-Modelle sind ein klares Signal: Der Konzern will in der KI-Wertschöpfungskette nicht nur Infrastruktur-Anbieter sein, sondern auch eigene Grundlagenmodelle liefern. Für Nutzer von Microsoft-Produkten bedeutet das mittelfristig bessere KI-Funktionen in Teams, Office und Azure. Die Benchmark-Ergebnisse, besonders bei MAI-Transcribe-1, sind beeindruckend. Ob sich MAI-Image-2 gegen die starke Konkurrenz von OpenAI und Google dauerhaft behaupten kann, wird sich zeigen.
Quellen:
- Microsoft AI: 3 new MAI models in Foundry
- TechCrunch: Microsoft takes on AI rivals with three new foundational models
- GeekWire: Microsoft releases new AI models to expand further beyond OpenAI
- VentureBeat: Microsoft launches 3 new AI models
- The Decoder: Microsoft zeigt neues Sprache-zu-Text-Modell MAI-Transcribe-1
- Microsoft Community Hub: Introducing MAI models in Foundry