Windsurf lansseeris arendajatele loodud oma AI-mudelid

May 16, 2025

Windsurf lansseeris arendajatele loodud oma AI-mudelid

Windsurf’i platvorm tehisintellekti arendajatele

Pildil on tekst 'Windsurf Wave 9' rohelisel ja oranžikal taustal. Allpool on kolm mudelite kirjeldust: 'SWE-1 Lite' – kerge mudel igapäevastele arendajatele, 'SWE-1' – täisvõimsusega mudel keeruliste ülesannete jaoks, ja 'SWE-1 Mini' – ülikiire mudel madala latentsusega ülesannete jaoks. — *Pildi allikas: Windsurf*

Ülevaade: AI koodimisplatvorm Windsurf tõi välja oma esimese tehisintellekti mudelite seeria SWE-1, mis aitab tarkvara arendamisel igas etapis, mitte ainult koodi genereerimisel.

Detailid:

SWE-1 mudeliseeria koosneb kolmest versioonist: täisversioon SWE-1 (tasulistele kasutajatele), lihtsam versioon SWE-1-lite (asendab senise Cascade Base’i) ja väiksem SWE-1-mini.
Testide järgi edestab SWE-1 enamikku tasuta ja avatud lähtekoodiga mudeleid ning jääb veidi alla vaid parimatele, nagu Claude 3.7 Sonnet.
Erinevalt tavalistest koodigeneraatoritest oskab SWE-1 toimetada ka muudes arendustööriistades, näiteks koodiredaktoris, terminalis ja brauseris.
Mudelid kasutavad „voo teadlikkuse“ süsteemi, mis võimaldab tehisintellektil arendusprotsessis kasutajaga paremini koostööd teha ja sujuvalt erinevate tööetappide vahel liikuda.

Miks see on oluline: Kuigi platvormid nagu Windsurf on seni kasutanud teiste loodud mudeleid, näitab omaenda mudeli lansseerimine suurt muutust suunas, kuhu nad liiguvad. Ja see toimub (ilmselt teadlikult) vaid paar päeva pärast kuulujutte, et OpenAI võib Windsurfi 3 miljardi dollari eest ära osta. Selline edukas debüüt võib viidata, et tehingu taga on rohkem, kui esmapilgul paistab.

Poe kasutusgraafikud näitavad tehisintellekti populaarsuse muutust ajas

Pildil on lilla graafik, mis kujutab AI mudelite edetabelit neljas kategoorias: 'Text,' 'Reasoning,' 'Image' ja 'Video.' Iga kategooria all on erinevate mudelite protsentuaalsed kasutusosakaalud. Tekstikategoorias juhib GPT-4o 35,8%-ga, mõtlemiskategoorias Gemini-2.5-Pro 31,5%-ga, pildikategoorias Imagen3 23,7%-ga ja videokategoorias Runway 23,6%-ga. Vasakul pool on kirjas 'AI Model Rankings'. — *Pildi allikas: Poe*

Ülevaade: AI-platvorm Poe avaldas 2025. aasta kevadise aruande, mis näitab, kuidas kasutajate eelistused on muutumas. Uute mudelite kasutus tõuseb, vanad mudelid aga kaotavad populaarsust.

Detailid:

GPT-4.1 ja Gemini 2.5 Pro haarasid mõne nädalaga vastavalt 10% ja 5% sõnumiosakaalust, samal ajal kui Claude’i kasutus langes samal perioodil 10%.
Loogikamudelite kasutus tõusis jaanuarist alates 2% pealt 10% peale, kusjuures Gemini 2.5 Pro moodustas sellest kolmandiku.
Pildigeneraatoritest kerkis GPT-image-1 17% osakaaluga tugevaks konkurendiks FLUXile ja Google Imagen3-le.
Videoturul tõusis kohe esikohale Hiina Klingi mudel, haarates ligi 30% kasutusest. Heli kategoorias juhib ElevenLabs 80% osakaaluga.

Miks see on oluline: Poe kasutustrendid näitavad, milliseid mudeleid inimesed tegelikult eelistavad ja kui kiiresti need eelistused uute mudelite lansseerimisega muutuvad. Kuna mudelid arenevad pidevalt, võib pilt juba paari kuu pärast olla hoopis teine.

Uuring: Keelemudelid jäävad hätta edasi-tagasi vestlustega

Graafik pealkirjaga 'LLMs get Lost in Conversation' kujutab LLM-ide võimekuse ja ebausaldusväärsuse suhet ühe- ja mitmevestluse stsenaariumides. Vasakul on näide ühevestluse kohta, kus kasutaja esitab kolm nõuet ja LLM vastab õigesti. Paremal on mitmevestluse näide, kus LLM teeb vigu, kui kasutaja esitab nõuded järk-järgult. Graafiku paremas osas on joonised, mis näitavad LLM-ide nagu Gemini 2.5 Pro, Claude 3.7 sonnet ja GPT-4.1 tulemusi erinevates usaldusväärsuse ja võimekuse punktides. Mitmevestluse tulemused näitavad madalamat võimekust ja kõrgemat ebausaldusväärsust. — *Pildi allikas: Microsoft and Salesforce Research*

Ülevaade: Microsofti ja Salesforce’i uurijad leidsid, et keelemudelid saavad palju halvemini hakkama vestlustega, kus juhised tulevad osade kaupa. Mudelid kipuvad „ära eksima“ ega suuda end enam kokku võtta.

Detailid:

Uurijad katsetasid 15 tippmudelit, nagu Claude 3.7 Sonnet, GPT-4.1 ja Gemini 2.5 Pro, kuue erineva ülesandega.
Selgus, et lihtsates olukordades olid mudelid edukad 90% juhtudest, aga keerulisemates, mitme sammuga vestlustes langes see umbes 60%-ni.
Mudelid kipuvad tegema kiireid järeldusi enne, kui neil on kogu info, ja toetuvad tihti varasematele (tihti ebatäpsetele) vastustele.
Temperatuuri seadistused ega lisapõhjendused ei aidanud, isegi parimad mudelid näitasid keerukates testides ebastabiilsust.

Miks see on oluline: Uuring näitab, et keelemudeleid hinnatakse sageli liiga lihtsate olukordadega. Reaalsuses, kus vestlus liigub edasi-tagasi, peaksid arendajad rohkem keskenduma sellele, et mudelid oleksid usaldusväärsed ja suudaksid paremini konteksti meeles pidada, mitte ainult reageerida konkreetsele käsule.