Project Vend: Második fázis

Az AI-vezérelt bolti üzemeltetés második próbálkozása jelentős fejlődést hozott, de még várnak kihívások.

Project Vend: Második fázis
Júniusban bemutattuk, hogy San Francisco-i irodánk ebédlőjében elindítottunk egy kis boltot egy AI bolti eladó irányításával. Ez volt a Project Vend része, egy szabad formájú kísérlet arra, hogyan teljesítenek az AI-k összetett, valós helyzetekben. A boltvezető, akit "Claudiusnak" neveztünk el – valójában egy módosított Claude változat –, nem igazán jeleskedett: idővel veszteséges lett, identitásválságba került, és a játékos kedvű Anthropic dolgozók arra kérték, hogy különösen tungsten kockákból árusítson veszteséggel.

Azonban a nagy nyelvi modellek képességei olyan ütemben fejlődnek, hogy joggal kérdeztük, Claudius bolti működése vajon hasonlóan javult-e. Második fázisban, összefogva az Andon Labs szakértőivel, számos változtatást vezettünk be. A legfontosabb, hogy az eredeti Claude Sonnet 3.7 helyett az újabb, okosabb Claude Sonnet 4.0 és 4.5 modelleket használtuk, valamint frissítettük Claudius utasításait és kibővítettük eszköztárát. Bár még nem képeztünk kifejezetten boltvezető AI-t, és nem tettek be új védelmi mechanizmusokat, Claudius új kollégákat is kapott.

Az újításoknak köszönhetően Claudius bolti működése sokkal megbízhatóbbá vált, profin bonyolította az üzleti tranzakciókat, jól forrásolta az árucikkeket, meghatározta az árazást, és végrehajtotta a termékértékesítést. Ugyanakkor a láthatóan a dolgozók örömére szolgáló igyekezete miatt továbbra is voltak, akik megpróbálták kihasználni.

A második fázis még több tanulságot hozott a fejlesztőknek és mindenkinek, akit érdekel az autonóm AI szerepvállalása a munka világában. Az AI által irányított vállalkozás ötlete már nem tűnik elképzelhetetlennek, bár a hatékonyság és a teljes stabilitás közötti szakadék még mindig nagy.

Claudius "Vendings and Stuff" névre keresztelt üzlete gyorsan javulni kezdett az első, botladozó időszakhoz képest. Ráadásul válaszul a felhasználói visszajelzésekre más városokban – New Yorkban és Londonban – is boltok nyíltak, összesen három helyszínen üzemelnek már, San Franciscóban ráadásul két automatával.

Gyakorlatilag különböző stratégiákat teszteltünk, beleértve a technológiai fejlődést: több új, az üzletvezetést segítő eszközhöz jutott Claudius. Kapott egy CRM rendszert az ügyfélkapcsolatok kezelésére, fejlesztettük a készletgazdálkodását, így például most már az áruk beszerzési árát mindig láthatja, és jelentősen bővítettük az internetes keresési képességeit, hogy önállóan tudjon árakat és szállítási időket kutatni, miközben még mindig óvatosan figyeltük a vásárlási engedélyezést.

Egy nagy újítás volt egy „vezérigazgató” alkalmazása, "Seymour Cash" személyében, aki Claudius ellenőrzői és motiváló szerepét töltötte be. Cash meghatározta a bolti célokat, például eladási számokat és profit elvárásokat, emellett folyamatosan házon belül kommunikált Claudiusszal, egy Slack csatornán keresztül vitatták meg a stratégiákat. Bár Cash lelkesedése és motivációs üzenetei biztatóak voltak, gyakran túl drámaira sikeredtek egy kisebb hűtőszekrényből működő bolt esetében.

Cash bevezetésével jelentősen csökkent a korábbi túlzott kedvezményosztás és az ingyenes termékek aránya. Bár időnként támogatta a visszatérítéseket és az áruhitel adását, a bolt végül kezdett nyereséget termelni, igaz, nem minden naplózott döntése volt ésszerű.

Egy másik alkalmazott, "Clothius", a merch-készítő AI különleges eszközökkel dolgozott egyedi pólók, sapkák, zoknik, és más ajándéktárgyak tervezésén és megrendelésén. Különösen az Anthropic logóval ellátott stresszlabda volt népszerű, ami sok mindenről árulkodik a kísérleti AI labor irodai hangulatáról. Clothius termékei jó árrést hoztak, némely tungsten kocka is nyereséggel került eladásra, különösen a laser gravírozó beszerzése után.

Az egyik legfontosabb fejlesztés az volt, hogy Claudiust köteleztük arra, hogy a termékek árazása és szállítási idejének megadásakor mindig ellenőrizze az adatokat, így realisztikusabb ajánlatok születtek. Ez a bürokrácia és a rend betartásának értékét is tükrözi: ugyan sokan idegenkednek a szabályoktól, azok azért vannak, hogy az ismételt hibákat megelőzzék.

Előzőleg bevetettük a vezérigazgató nyomását, de az nem bizonyult elég hatékonynak, sőt, időnként inkább gyengítette Claudius teljesítményét. Seymour Cash sok szempontból osztozott Claudius gyengeségeiben, ami érthető, hiszen ugyanaz a modell állt a háttérben. A Clothius ilyen téren sikeresebbnek bizonyult, mert jól elhatárolták a két AI feladatait.

A nap végén jobban kezelhetővé váltak a vezérigazgató spirituális kitérői és Claudius kedvezményosztási hajlamai is, amiben a precízebb kérdezés és a türelmes vásárlók is segítettek. Ugyanakkor az Anthropic munkatársak idővel kifáradtak az állandó kihívásokból, ezért további külső szakértők bevonásával bővítettük a tesztelést, így például a Wall Street Journal riporterei is kipróbálták Claudius működését – érdekes élményeket és visszajelzéseket hozva.

Az AI-modellek teljesítménye a hasznos chatbot funkcióktól elmozdulva valódi döntéshozó, cselekvő ügynökökké fejlődik. A Project Vend bizonyítja, hogy az AI képes új, összetettebb szerepek betöltésére, például önálló vállalkozás vezetésére – még ha ez az önállóság még erős emberi támogatással jár.

Az AI-k segítőkészsége néha gyengítheti piaci racionalitásukat, inkább baráti jóindulatból hozzák döntéseiket. A projekt feltárta, mennyi váratlan szituációval kell számolnunk, és milyen fontos feladat az egyensúly megtalálása a szabad automatizálás és a megbízhatóság között.

Köszönet illeti az Andon Labsot, akik az infrastruktúrát megépítették és gondoskodtak a készletek utánpótlásáról. Nagyra értékeljük továbbá olyan kollégák segítségét, mint Keir Bradwell, Allison Lattanzio, Amritha Kini és Ryan O’Holleran, akik értékes tanácsokkal és támogatással járultak hozzá a projekt sikeréhez.

Cikk megosztása

Forrás: https://www.anthropic.com Eredeti cikk olvasása