Windsurf’i platvorm tehisintellekti arendajatele

Ülevaade: AI koodimisplatvorm Windsurf tõi välja oma esimese tehisintellekti mudelite seeria SWE-1, mis aitab tarkvara arendamisel igas etapis, mitte ainult koodi genereerimisel.
Detailid:
- SWE-1 mudeliseeria koosneb kolmest versioonist: täisversioon SWE-1 (tasulistele kasutajatele), lihtsam versioon SWE-1-lite (asendab senise Cascade Base’i) ja väiksem SWE-1-mini.
- Testide järgi edestab SWE-1 enamikku tasuta ja avatud lähtekoodiga mudeleid ning jääb veidi alla vaid parimatele, nagu Claude 3.7 Sonnet.
- Erinevalt tavalistest koodigeneraatoritest oskab SWE-1 toimetada ka muudes arendustööriistades, näiteks koodiredaktoris, terminalis ja brauseris.
- Mudelid kasutavad „voo teadlikkuse“ süsteemi, mis võimaldab tehisintellektil arendusprotsessis kasutajaga paremini koostööd teha ja sujuvalt erinevate tööetappide vahel liikuda.
Miks see on oluline: Kuigi platvormid nagu Windsurf on seni kasutanud teiste loodud mudeleid, näitab omaenda mudeli lansseerimine suurt muutust suunas, kuhu nad liiguvad. Ja see toimub (ilmselt teadlikult) vaid paar päeva pärast kuulujutte, et OpenAI võib Windsurfi 3 miljardi dollari eest ära osta. Selline edukas debüüt võib viidata, et tehingu taga on rohkem, kui esmapilgul paistab.
Poe kasutusgraafikud näitavad tehisintellekti populaarsuse muutust ajas

Ülevaade: AI-platvorm Poe avaldas 2025. aasta kevadise aruande, mis näitab, kuidas kasutajate eelistused on muutumas. Uute mudelite kasutus tõuseb, vanad mudelid aga kaotavad populaarsust.
Detailid:
- GPT-4.1 ja Gemini 2.5 Pro haarasid mõne nädalaga vastavalt 10% ja 5% sõnumiosakaalust, samal ajal kui Claude’i kasutus langes samal perioodil 10%.
- Loogikamudelite kasutus tõusis jaanuarist alates 2% pealt 10% peale, kusjuures Gemini 2.5 Pro moodustas sellest kolmandiku.
- Pildigeneraatoritest kerkis GPT-image-1 17% osakaaluga tugevaks konkurendiks FLUXile ja Google Imagen3-le.
- Videoturul tõusis kohe esikohale Hiina Klingi mudel, haarates ligi 30% kasutusest. Heli kategoorias juhib ElevenLabs 80% osakaaluga.
Miks see on oluline: Poe kasutustrendid näitavad, milliseid mudeleid inimesed tegelikult eelistavad ja kui kiiresti need eelistused uute mudelite lansseerimisega muutuvad. Kuna mudelid arenevad pidevalt, võib pilt juba paari kuu pärast olla hoopis teine.
Uuring: Keelemudelid jäävad hätta edasi-tagasi vestlustega

Ülevaade: Microsofti ja Salesforce’i uurijad leidsid, et keelemudelid saavad palju halvemini hakkama vestlustega, kus juhised tulevad osade kaupa. Mudelid kipuvad „ära eksima“ ega suuda end enam kokku võtta.
Detailid:
- Uurijad katsetasid 15 tippmudelit, nagu Claude 3.7 Sonnet, GPT-4.1 ja Gemini 2.5 Pro, kuue erineva ülesandega.
- Selgus, et lihtsates olukordades olid mudelid edukad 90% juhtudest, aga keerulisemates, mitme sammuga vestlustes langes see umbes 60%-ni.
- Mudelid kipuvad tegema kiireid järeldusi enne, kui neil on kogu info, ja toetuvad tihti varasematele (tihti ebatäpsetele) vastustele.
- Temperatuuri seadistused ega lisapõhjendused ei aidanud, isegi parimad mudelid näitasid keerukates testides ebastabiilsust.
Miks see on oluline: Uuring näitab, et keelemudeleid hinnatakse sageli liiga lihtsate olukordadega. Reaalsuses, kus vestlus liigub edasi-tagasi, peaksid arendajad rohkem keskenduma sellele, et mudelid oleksid usaldusväärsed ja suudaksid paremini konteksti meeles pidada, mitte ainult reageerida konkreetsele käsule.