MAI-Voice-1. Szybka generacja mowy z ograniczeniami
Pierwszy z modeli skupia się na generowaniu głosu. MAI-Voice-1 potrafi wygenerować minutę audio w mniej niż sekundę, wykorzystując do tego zaledwie jeden procesor graficzny. System ma prowadzić naturalne rozmowy, dostosowując intonację i rytm wypowiedzi do kontekstu. I robi to – Microsoft już testuje go w praktyce. Copilot Daily używa nowego modelu do narracji wiadomości, a Copilot Audio Expressions oferuje różne głosy i style.

AI może przeczytać to, co jej podamy, albo zinterpretować zadany temat i zamienić go w głosową interpretację – najlepiej sami spróbujcie na stronie Copilot Lab. Problem? Oczywiście – model działa jak na razie wyłącznie po angielsku, co dla polskich użytkowników oznacza, że (znowu) na pełne wykorzystanie przyjdzie jeszcze poczekać.
MAI-1-preview. Baza pod codzienne zastosowania
Drugi model to MAI-1-preview, działający w technice „mieszanki ekspertów”. Do jego wytrenowania użyto około 15 000 kart NVIDIA H100 i ma służyć przede wszystkim przeciętnym użytkownikom, odpowiadając na pytania i wykonując instrukcje w codziennych sytuacjach. Obecnie testowany jest przez grono zaufanych testerów (mają też do dyspozycji API), a w najbliższych tygodniach ma trafić do dostępnego dla wszystkich Copilota.
Czytaj też: Microsoft atakuje odwieczny problem audio w Windows. Gracze i użytkownicy Teams będą zachwyceni
Microsoft zabezpiecza się na przyszłość
Nazwa MAI nie jest przypadkowa – to połączenie Microsoft i AI. Ten intrygujący zwrot akcji sugeruje, że firma chce zmniejszyć zależność od OpenAI – Google ma Gemini, Meta rozwija Llamę, a teraz Microsoft dołącza do wyścigu z własnymi rozwiązaniami. Czy to oznacza koniec współpracy z OpenAI? Raczej nie, w każdym razie do momentu, gdy obie strony na tym dobrze wychodzą. Na pewno Microsoft zabezpiecza się na przyszłość i trudno mu się dziwić – chętnych na zakup OpenAI nie brakuje i trudno przypuszczać, by firma z Redmond nie chciała być przygotowana na taki scenariusz.