Az Anthropic bemutatja a Claude 3.5 Sonnet-et, amely új AI benchmarkokat állít fel

Gábor Bíró 2024. június 21.
3 perc olvasási idő

Az Anthropic új mesterséges intelligencia modellje, a Claude 3.5 Sonnet új iparági szabványokat állít fel az érvelés, a tudás és a kódolási képességek terén. Elődjénél kétszer gyorsabban működve a modell kiválóan teljesít komplex feladatokban, és az új Artifacts funkcióval fokozza az együttműködést.

Az Anthropic bemutatja a Claude 3.5 Sonnet-et, amely új AI benchmarkokat állít fel
Forrás: Anthropic

Az Anthropic bemutatta legújabb és legfejlettebb mesterséges intelligencia modelljét, a Claude 3.5 Sonnet-et, amely jelentős teljesítmény- és képességbeli fejlesztéseket mutat be a korábbi modellekhez képest. Az új modell legfontosabb fejlesztései közé tartozik:

  • Felülmúlja a versenytárs modelleket, mint például az OpenAI GPT-4o-ját, a Google Gemini 1.5 Pro-ját és a Meta Llama 3 400B-jét 9 átfogó benchmarkból 7-ben és 5 vizuális benchmarkból 4-ben.
  • Új iparági benchmarkokat állít fel a diplomás szintű érvelés (GPQA), az egyetemi szintű tudás (MMLU) és a kódolási jártasság (HumanEval) terén.
  • Kétszer olyan gyorsan működik, mint az Anthropic korábbi csúcsmodellje, a Claude 3 Opus.
  • Kiemelkedő a kódírásban és -fordításban, a többlépcsős munkafolyamatok kezelésében, valamint a diagramok és grafikonok értelmezésében.
  • Jobban megérti a nüanszokat, a humort és az összetett utasításokat.
  • Kiváló minőségű tartalmat generál természetes, közérthető hangnemben.
  • A belső, ügynöki kódolási tesztekben a problémák 64%-át oldja meg, szemben a Claude 3 Opus 38%-ával.
  • Felülmúlja a Claude 3 Opus-t a szabványos vizuális benchmarkokon, javult a vizuális érvelés és a szövegátírás tökéletlen képekről.

Ezek a fejlesztések a Claude 3.5 Sonnet-et hatékony eszközzé teszik az olyan komplex feladatokhoz, mint a kontextusérzékeny ügyfélszolgálat és a többlépcsős munkafolyamatok irányítása.

Az új modell mellett az Anthropic bemutatta az Artifacts funkciót, amelyet az együttműködés és a termelékenység javítására terveztek. Ez az innovatív funkció lehetővé teszi a felhasználók számára, hogy valós időben megtekintsék, szerkesszék és továbbfejlesszék az AI által generált tartalmakat – például kódrészleteket és szöveges dokumentumokat – a chat felületén belül. Az Artifacts dinamikus együttműködési munkaterületté alakítja a Claude-ot, lehetővé téve a csapatok számára, hogy zökkenőmentesen integrálják az AI által generált tartalmakat projektjeikbe és munkafolyamataikba. Például a tervezői és UX csapatok az Artifacts segítségével közösen hozhatnak létre, iterálhatnak és finomíthatnak felhasználói felület prototípusokat, kihasználva a Claude tervezési elvekkel kapcsolatos ismereteit és a vizuális elemek generálására való képességét.

Az Anthropic hangsúlyozza a Claude 3.5 Sonnet biztonság és adatvédelem iránti elkötelezettségét. A modellt szigorú tesztelésnek vetették alá, és a visszaélések csökkentésére képezték ki, külső szakértők, például az Egyesült Királyság Mesterséges Intelligencia Biztonsági Intézete (UK AISI) bevonásával. Az Anthropic a gyermekvédelmi szakértők visszajelzéseit is beépítette az osztályozók frissítése és a modellek finomhangolása érdekében. A vállalat megerősíti álláspontját az adatvédelemmel kapcsolatban, kijelentve, hogy a felhasználók által beküldött adatokat nem használják fel generatív modelljeik képzésére kifejezett engedély nélkül. Ezek az intézkedések tükrözik az Anthropic erőfeszítéseit a potenciális kockázatok kezelésére és a felhasználói bizalom fenntartására az AI technológiájában.

Az új AI modell ingyenesen elérhető a Claude.ai weboldalon és a Claude iOS alkalmazásban, magasabb sebességkorlátokkal a Claude Pro és Team előfizetők számára. A felhasználók a Claude 3.5 Sonnet-et az Anthropic API-n, az Amazon Bedrockon és a Google Cloud Vertex AI-on keresztül is elérhetik. Az Anthropic tervezi, hogy az év későbbi részében a Claude 3.5 Haiku és a Claude 3.5 Opus megjelenésével teljessé teszi a Claude 3.5 modellcsaládot. A vállalat új funkciókat és integrációkat is fejleszt, beleértve a Memória funkciót is, amely lehetővé teszi a Claude számára, hogy emlékezzen a felhasználói preferenciákra és az interakciós előzményekre.

Gábor Bíró 2024. június 21.