Mistral haastaa Openain ja Googlen uudella voxtraalisella avoimen lähdekoodin AI-mallilla

Ranskan AI-startup Mistral julkaisi tiistaina ensimmäisen avoimen lähdekoodin AI-mallinsa, Voxtral, haastoen suoraan Googlen ja Openain omistamien järjestelmien hallitsevuuden. Pariisissa toimiva yritys sijoittaa uuden malliperheensa korkean suorituskyvyn, kustannustehokkaan vaihtoehdon kehittäjille.

Mistral väittää, että se tarjoaa huipputeknisen puheen ymmärtämisenAlle puolet kilpailevien sovellusliittymien hinnasta. Voxtral pyrkii sallitun Apache 2.0 -lisenssin perusteella, että se on demokratisoida pääsy tuotantovalmiun äänen älykkyyteen edistyneellä transkriptiolla ja monikielisellä tuella.

Tämä muutto vahvistaa kilpailua nopeasti kasvavilla keskustelujen AI -markkinoilla. Se puolustaa avoimen lähdekoodin lähestymistapaa alan seinämäisiä puutarhoja vastaan. Twith Voxtraal, kehittäjien ei enää tarvitse valita halvan, mutta virheellisen avoimen järjestelmän tai toiminnallisen suljetun välillä.

Voxtraal on Mistralin avoimen lähdekoodin vastaus omaan ääneen AI

Mistral sijoittaa vokstraalisesti liuoksena pitkäaikaiseen kehittäjän dilemmaan. Joukkueiden oli vuosien ajan valita halpojen, avoimen lähdekoodin puhejärjestelmien välillä, joilla oli usein korkeat virhetasot ja rajoitettu ymmärrys tai voimakkaat omistusoikeudelliset sovellusliittymät, joilla oli korkea hintamerkki ja vähemmän käyttöönoton hallinta. Voxtraalin tavoitteena on ylittää tämä aukko toimittamalla Mistral kutsuu ”todella käyttökelpoiseksi puhetiedustelulle tuotannossa” sallitun Apache 2.0 -lisenssin nojalla.

Yhtiö on julkaissut malliperheen erilaisiin tarpeisiin. Lippulaiva on voxtral Small, 24 miljardin parametrimalli, joka on suunniteltu tuotanto-asteikon sovelluksiin. Laitteessa tai paikallisessa käytössä on vokstraalista mini, kompakti 3 miljardin parametrivariantti. Lopuksi, Mistral tarjoaa kustannusherkät, suuria volyymitehtäviä vokstral mini-transkribtiä, erittäin optimoitu ja irrotettu versio, joka keskittyy puhtaasti transkriptioon.

Saavutettavuus on keskeinen Mistralin strategiassa. Sekä pienet että minimallit ovatsaatavana ladattavissa halaus kasvoillapaikallisille ja paikallisille työmäärille. Pilvipohjaiseen integrointiin malleihin pääsee yksinkertaisella API-puhelulla, hinnoittelu alkaa vain 0,001 dollaria minuutissa. Yhtiö aikoo myös levittää voxtraalin Le -chat -chatbotin äänitilassa.

Voxtral-ominaisuudet ulottuvat huomattavasti ulkopuolisiin puhe-tekstiin, sen perustan Mistral Small 3.1 -kielimallin perusteella. Tämä LLM -selkäranka antaa sille syvän semanttisen ymmärryksen äänisisällöstä. 32 000-Toiss Context -ikkunassa se voi käsitellä jopa 30 minuutin pituisia äänitiedostoja transkriptioon ja jopa 40 minuuttia tehtävien ymmärtämiseksi, kuten monimutkaisten kysymyksien esittämiseksi.

Tämä arkkitehtuuri mahdollistaa edistyneiden, sisäänrakennetun ominaisuuden sarjan, jolloin tarvitsee ketjuttaa useita AI-malleja yhdessä. Voxtraal voi suorittaa natiivia Q & A-yhteenvetoa ja yhteenvetoa, ja se tukee toiminnan soittamista suoraan äänikomennoista kääntämällä puhutun aikomuksen toimiviksi järjestelmäkomennoiksi. Siinä on myös automaattinen kielen havaitseminen, ja huipputekniset suorituskyky on laajalti käytetyillä kielillä, kuten englanti, espanja, ranska, saksa ja hindi.

Mistral korosti ilmoituksessaan tavoitteensa antaa kehittäjille valtuuttamista ja kiihdyttää äänen ensimmäistä tulevaisuutta. Yhtiö totesi: "Julkaisemme Voxtraal-mallit tämän tulevaisuuden nopeuttamiseksi. Nämä puheiden ymmärrysmallit ovat saatavana kahdessa koossa-24b-variantissa tuotantoasteisten sovelluksille ja 3B-variantti paikallisille ja reunan käyttöönottoille."

Suorituskyky tungosta ja kilpailukykyisellä areenalla

Mistralin pääsy ei ole tyhjiössä, vaan intensiivisen kilpailun pata, jossa teknologia jättiläiset ja ketterät startup -yritykset kilpailevat hallitsevan aseman tulevaisuudessa äänivuorovaikutuksen tulevaisuudessa. Väitteidensä tukemiseksi Mistral julkaisi pakottavan vertailutietojen sijoittamisen voxtraaliksi sekä suorituskyvyn että kustannustehokkuuden johtajana. Fleursin vertailukohdassa voxtraaliset pienet ja mini-transkriptiot sijaitsevat hinta-suorituskyvyn optimaalisella reunalla, toimittaen alhaisemmat virhesuhteet kuin Googlen Gemini 2.5 Flash ja Openain GPT-4O Mini Transcribtive murto-osaan kustannuksista.

Mallit osoittavat erityisen vahvoja monikielisiä ominaisuuksia, jotka ylittävät kilpailijat eurooppalaisilla kielillä, kuten italia, espanja ja ranska. Vaikka ElevenLabsin kirjoittaja lähettää hiukan alhaisemman virhesuhteen joissakin pitkämuotoisissa englanninkielisissä tehtävissä, se tekee niin yli kaksinkertaisen pienen, vahvistavan Mistralin arvoehdotuksen hinnan.

Tämä käynnistys haastaa suoraan Big Techin meneillään olevat edistykset. Viime kuukausina Openai laajensi edistynyttä äänitilaansa verkkoon, kun taas antropia levitti keskustelutilaa Claude AI: lle. Amazon teki myös merkittävän muutoksen huhtikuussa reaaliaikaisella ilmeikkällä Nova Sonic -mallillaan, joka on jo integroitu Alexa+ -apulaiseensa. Kun Amazonin laitteet johtavat Panos Panay lupasi: "Kun käytät Alexa+, tunnet sen."

Innovaatio ei rajoitu jättiläisiin. Markkinoita muokkaavat myös erikoistuneita startup -yrityksiä, jotka tutkivat erilaisia markkinarakoja. Toukokuussa Stability AI teki yhteistyötä ARM: n kanssa laitteen, rojaltivapaan äänimallin julkaisemiseksi, immateriaalioikeuksien huolenaiheiden ratkaisemiseksi eettisesti hankittujen koulutustietojen avulla. Toimitusjohtaja Prem Akkaraju korosti tehokkuuden keskittymistä ja totesi: "Siirrimme minuutteista vain sekunteihin luodaksemme äänen kokonaan älypuhelimen käsivarren prosessorilla."

Liittyvät:Googlen 'haku live' ai Voice haastaa chatgpt suoraan

Spektrin toisessa päässä Sesame AI: n kaltaiset startup-yritykset ajavat realismin rajoja luomalla ”hirveästi ihmisen kuulostavia” avustajia, jotka omaksuvat puutteet, kuten taukoja ja ottelijoita, ylittämään Uncanny Valley. Andreessen Horowitzin Anjney Midha vangitsi tämän filosofisen pyrkimyksen emotionaaliseen aitouteen, joka totesi: ”AI-äänen emotionaalinen tasaisuus on ollut uuvuttavaa ja luonnotonta. Mutta jos poistat visuaalisen näytön AR-lasista ja keskit sen sijaan hämmästyttävään audio-ensimmäiseen AI-järjestelmään, voit luoda laskentakokemuksen, joka tuntuu saumattomalta ...”

Voxtralin julkaisu ei ole vain tekninen virstanpylväs; Se on strateginen siirto lisääntyvässä AI -kykyjen sodassa. Taistelu Top Mindsista on pakottanut yritykset joko rakentamaan, ostamaan tai salametsästä. Meta: n äskettäin hankkiminen Voice AI -yrityksestä Playai ilmoitetulle 45 miljoonalla dollarilla on erinomainen esimerkki tästä suuntauksesta.

Mistralille vokstral edustaa merkittävää vaihetta. Yhtiö on jo ilmoittanut tulevien päivitysten suunnitelmista, mukaan lukien puhujan segmentointi, tunteiden havaitseminen ja sanatason aikaleimat. Tarjoamalla voimakkaan, avoimen ja edullisen vaihtoehdon Mistral on vedonlyönti, että se voi kerätä merkittävän kapean äänen ensimmäisessä tulevaisuudessa.

Related Posts