Amazon tutvustab tehisintellektil põhinevat Alexa+

Ülevaade: Amazon on äsja avalikustanud Alexa+, oma oodatuima järgmise põlvkonna digitaalse assistendi, mis on täielikult üles ehitatud tehisintellektil ning võimaldab inimlikku suhtlust, personaliseerimist ja sisaldab agendilist võimekust igapäevasteks ülesanneteks.
Detailid:
- Alexa+ ühendab erinevad keelemudelid, nagu Amazon Nova ja Anthropic Claude, et valida igaks ülesandeks kõige sobivam mudel.
- Täiendatud assistent suudab täita keerukaid toiminguid nagu broneeringute tegemine, toidu tellimine, kontserdipiletite ostmine ja palju muud.
- Teised funktsioonid hõlmavad dokumentide analüüsi, kasutajaeelistuste meeldejätmist, vestluse konteksti säilitamist ja integratsioone erinevate teenusepakkujatega.
- Hind on 19,99 eurot kuus, aga see on tasuta Amazon Prime liikmetele. Beeta versioon lansseeritakse järgmine kuu ainult USA turule.
Miks see on oluline: Varasemad hääleabilised nagu Alexa ja Siri on jäänud tehisintellekti arengust maha, kuid uus tehnoloogia toob hääleabilised üle 100 miljoni Prime liikme kodudesse, luues võimaluse, et "ChatGPT-laadne" tehnoloogia jõuab ka tavakasutajateni.
ElevenLabs'i uus kõne-tekstiks tehisintellekt

Ülevaade: ElevenLabs tutvustas Scribe'i, uut kõne-tekstiks mudelit, mis on väidetavalt maailma täpseim, ületades mitmes keeles tööstuse liidreid nagu Google'i Gemini 2.0 Flash ja OpenAI Whisper v3.
Detailid:
- Scribe toetab 99 keelt ja väidetavalt on täpsus üle 95% enam kui 25 keeles, sealhulgas inglise, itaalia ja hispaania keeles.
- Mudel tõstab standardit keeltes, kus tavaliselt puuduvad kõnetuvastus ja transkriptsioonivõimalused, nagu eesti, serbia, kantoneesi ja malajalami keel.
- Scribe'i hind on 0,40 dollarit tunni kohta salvestatud audio transkribeerimisel ning peatselt tuleb ka madala latentsusega versioon reaalajas kasutamiseks.
Miks see on oluline: Scribe'i täpsus võimaldab inimestel nautida veatuid subtiitreid ja palju muud. See toob kõrgtasemelise transkriptsiooni laiemale globaalsele avalikkusele, eriti keeltele, mida teised mudelid on varem tähelepanuta jätnud.
Inception Labs'i ülikiire difusioonimudel

Ülevaade: Inception Labs tuli turule uue Merkuuri-nimelise difusiooni keelemudeliga, mis genereerib teksti kuni 10 korda kiiremini kui traditsioonilised keelemudelid, säilitades samal ajal kõrge kvaliteedi ja kiiruse üle 1000 märgi sekundis.
Detailid:
- Keelemudelid genereerivad tavaliselt teksti märk-märgi haaval, kuid Merkuuri difusioonilähenemisviis genereerib terveid plokke paralleelselt, tagades suurema kiiruse, tõhususe ja kontrolli.
- Nende esimene mudel, Mercury Coder on samal tasemel või isegi ületab selliseid mudeleid nagu GPT-4o Mini ja Claude 3.5 Haiku, olles 5-10 korda kiirem.
- Inception asutati Stanford'i professori Stefano Ermoni poolt, kes uuris, kuidas rakendada difusiooni (tavapäraselt kasutatakse piltide ja videote genereerimisel) tekstis.
- Mecury mudeleid saab kasutada valdkondades nagu koodi genereerimine, klienditugi ja automatiseerimine.
Miks see on oluline: Tuues Sora-sarnase difusiooni teksti loomesse, paneb Inception kahtluse alla põhilised eeldused selle kohta, kuidas tehisintellekt peaks keelt genereerima. Nende tehnika võib potentsiaalselt võimaldada võimsamaid agente, paremat ja tõhusamat mõtlemist.