ChatGPT Operator ja oskus arvutit kasutada

January 24, 2025

ChatGPT Operator ja oskus arvutit kasutada

OpenAI tutvustab oma esimest autonoomset veebi agenti

Kuvand kujutab Hipcampi otsingulehte. Vasakul on vestluslogi, kus mainitakse Joshua Tree kämpingu otsimist ja kuupäevade valimist. Paremal on veebilehe vaade, millel on otsinguväli Joshua Tree ja kuupäevadega, tootenupud ja pildigalerii erinevate laagripaikade fotodega. Ülal on fraas 'Camp your way' ja paremal külgribal on täiskasvanute, laste ja lemmikloomade arvu reguleerimise valikud. — *Pildi allikas: OpenAI*

Ülevaade: OpenAI tõi turule Operatori, tehisintellekti agendi, mis suudab iseseisvalt veebibrausereid navigeerida, et täita igapäevaseid ülesandeid – see on ettevõtte esimene suur samm autonoomsete AI-assistentide suunas.

Detailid:

Operator kasutab uut arvuti kasutamise agendi mudelit, mis ühendab 4o nägemisvõimekuse edasijõudnud loogikaga, et suhelda veebilehtedega.
OpenAI demonstreeris seda funktsiooni otseülekandes, näidates ülesandeid nagu broneeringute tegemine, toidu tellimine ja spordiürituste piletite ostmine.
OpenAI on teinud koostööd suurte platvormidega nagu DoorDash, Instacart ja Uber, et tagada agendi sujuv toimimine, järgides platvormide juhendeid.
Operator tuleb koos turvafunktsioonidega, mis sisaldab endas kasutaja heakskiidu võimekust ostude tegemisel ja ohtude tuvastamine automaatselt.
Katsetatakse hetkel USA Pro-kasutajatega, kuid plaanis on laieneda Plus, Team ja Enterprise versioonidele pärast laialdasema ohutuse ja usaldusväärsuse testimist.

Miks see on oluline: Kuigi agendi süsteemid näeme üha sagedamini erinevates tööriistades ilmumas, on OpenAI kauaoodatud samm suur läbimurre, et muuta kogu meie suhtumist tehisintellekti. Esialgsete tagasilöökide järel tundub nüüd, et Operator tähistab ametlikult uue agendi ajastu algust.

Perplexity esitleb uut AI mobiilset assistenti

Mees istub laua taga ja vaatab nutitelefoni ekraani. Telefonil on teavitus, mis meenutab Lakersi ja Hawksi mängu algust. Taustal on näha hämaralt valgustatud tuba laualampidega. — *Pildi allikas: Perplexity*

Ülevaade: Perplexity tutvustas just Perplexity Assistenti, mis suudab hallata telefonirakendusi ja täita keerukaid ülesandeid häälkäskluste abil, pakkudes tugevat konkurentsi hääleassistentidele nagu Google Gemini ja Siri.

Detailid:

Uus assistent integreerub populaarsete rakendustega nagu Uber ja OpenTable, et teostada toiminguid otse häälkäskluste või žestide kaudu.
Süsteem hoiab alles konteksti kogu suhtluse vältel ja võimaldab kasutajatel Assistendi kaudu tegutseda — näiteks restorane leida ja lauda broneerida.
Süsteemiga saab suhelda hääle või kaamera kaudu, mis võimaldab kasutajatel saada teavet ümbritseva keskkonna kohta.
Kasutajad saavad Google’i vaikimisi assistendi asendada Perplexity lahendusega tasuta; see funktsioon on hetkel saadaval ainult Androidis.

Miks see on oluline: Operaatormudel pole täna ainus tegija, kuna Perplexity arendab oma platvormi otsingumootorist täieõiguslikuks digitaalseks assistendiks. Assistendi valdkond võib muutuda uueks lahinguväljaks AI firmadele, mitte ainult tehnoloogia hiidudele. Perplexity uus lahendus näeb esmapilgul välja just selline, nagu Apple’i “parem versioon” Siri’st.

Uuendatud tehisintellekti normid

Tabel pealkirjaga 'Humanity's Last Exam', mis võrdleb AI-mudeleid täpsuse ja kalibreerimisvea järgi. Mudelid on loetletud järgmiselt: GPT-4o (täpsus 3.3%, kalibreerimisviga 92.5%), Grok-2 (3.8%, 93.2%), Claude 3.5 Sonnet (4.3%, 88.9%), Gemini Thinking (6.2%, 93.9%), o1 (9.1%, 93.4%) ja DeepSeek-R1 (9.4%, 81.8%). Alumine märkus teatab, et mudel pole multimodaalne, hinnatud ainult tekstipõhises alamhulgas. — *Pildi allikas: Humanity’s Last Exam*

Ülevaade: Tehisintellekti Ohutuse Keskus (Center for AI Safety) ja Scale AI tutvustasid just ‘Inimkonna Viimast Eksamit’, uut tehisintellekti normi, mis on loodud selleks, et testida LLM-i akadeemilisi teadmisi — kuna praegused tehisintellekti süsteemid on olemasolevatest testidest palju võimekamad.

Detailid:

Norm koosneb 3000. ekspertide koostatud küsimusest, mis katab rohkem kui 100 ainet, ning panustajaid on üle 500 institutsiooni 50 erinevast riigist.
Praegused juhtivad tehisintellekti mudelid saavutavad HLE testil üllatavalt madalaid tulemusi, isegi parimad süsteemid jäävad alla 10% täpsusele.
Küsimusi on kahte tüüpi – sõna sõnalt täpsed vastused või valikvastustega, kus 10% ülesannetest sisaldab teksti ja piltide analüüsi.
500 000 dollariline auhinnafond motiveerib kvaliteetseid kandidaate, kus parimad küsimused teenivad 5000 dollarit ning panustajatele pakutakse kaasautorluse võimalusi.

Miks see on oluline: Kuna parimad mudelid saavutavad paljudel tänapäevastel standarditel järjepidevalt üle 90% tulemusi, on testid nagu HLE olulised, et hinnata arenevate tehisintellekti süsteemide võimekust. Arvestades kiiret arengut, pole vaja ilmselt kaua oodata, kuni näeme ka nende testide puhul muljetavaldavaid tulemusi.