Nya it-jobb håller på att dyka upp för att hjälpa organisationer att bättre utvärdera AI-resultat när de går från AI-pilotprojekt till fullskaliga implementationer. Många organisationer överväger nu att sätta ihop eller anställa AI-utvärderingsteam, och vissa experter kallar dessa nyligen skapade roller för ett viktigt säkerhetsnät för företag som lanserar AI-verktyg. Den snabba ökningen av AI-agenter driver på denna trend, och AI-utvärderingsteam har börjat ta form under de senaste månaderna, säger Yasmeen Ahmad, chef för produktledning, data och AI-moln på Google Cloud. – Hittills har vi inte riktigt varit i ett skede där vi har haft flerstegsresonemang och komplexa agenter som är autonoma. När kunderna ser hur agenterna beter sig i verkligheten, så att säga, inser de att utvärdering inte är en grind, utan måste vara en kontinuerlig process, säger hon. På Google är utvärderingsteamen integrerade med agentutvecklingsgrupperna så att de två funktionerna kan ske samtidigt, säger Ahmad. – När agentbyggarna bygger sker utvärderingen parallellt så att det blir en snabb iterationscykel. Andra organisationer har börjat skapa arbetsgrupper för AI-utvärdering inom sina större AI- och it-avdelningar, säger Maksim Hodar, it-chef på mjukvaruutvecklingsföretaget Innowise. I vissa fall kombinerar företagen dataarkitekter, säkerhetsansvariga och compliance-chefer i det nya teamet, istället för att rekrytera från grunden, konstaterar han. Utvärdering blir nödvändig Medlemmarna i AI-utvärderingsteamet har en hybridroll, mellan rå kodning och etiska affärsmetoder, säger han. – Man kan lugnt säga att vi bevittnar utvecklingen av AI-utvärderingsteamet från något som är ’bra att ha’ till något som är nödvändigt. Vi har observerat att företag går ifrån blind AI-implementering och istället anammar en mer måttfull approach till det så kallade ”säkerhetsnätet”, säger Hodar. Även om en ny uppsättning verktyg, inklusive produkter för observabilitet och styrning, fokuserar på att förhindra AI-fel, är tekniken inte en fullständig lösning, tillägger han. Människor kommer att behövas för att avgöra om it-verktyget är i linje med företagets värderingar och regler, såsom GDPR. – Tekniken kan identifiera tekniska fel, men den kan inte utvärdera sammanhanget. Tekniken hjälper till att tillhandahålla information, men utvärderingsteamet ger fortfarande grönt ljus. Man kan inte automatisera ansvarsskyldigheten. Mänskliga utvärderingsteam behöver den data som observabilitetsverktyg tillhandahåller, men tekniken i sig kan inte tillhandahålla det sammanhang som AI-modeller och agenter behöver för att reparera dåliga resultat, säger Googles Ahmad. AI-agenter har blivit mycket bra på att klara resultatkontroller i testmiljöer, men utvärderingsteam behövs för att spåra deras resultat i verkliga situationer, säger hon. – Agentiska appar kan klara det initiala enhetstestet för det specifika scenario som du beskrev. Men agentiska system är icke-deterministiska beslutsfattare, så de uppför sig inte på ett förutsebart sätt. Man testar inte alla potentiella sätt som de kan uppföra sig på i verkligheten. Även om ett observabilitetsverktyg kan tillhandahålla data om tokenanvändning, verktygsanvändning, verktygsfel och resonemangsfel, behövs mänskliga utvärderare för att åtgärda många av problemen. Utvärderingsteam kan ge sammanhang för de vanligt förekommande resonemangsfel som agenter har, tillägger hon. – När våra interna utvärderingsteam lägger mycket tid på våra agenter går en stor del av tiden åt till att fundera över varför resonemangslogiken misslyckades här. Det beror på att agenten inte har tillgång till tillräckligt med sammanhang. Lösningen på det är att tillhandahålla rätt sammanhang på rätt nivåer i agenten så att den kan fatta bättre resonemangsbeslut, säger Ahmad. Testning i en komplex miljö Ett bra utvärderingsteam tar också itu med flera andra frågor, inklusive styrning, kulturell beredskap, anpassning av organisatoriska arbetsflöden och mätbar affärspåverkan av AI-verktyg, säger Noe Ramos, vice vd för AI-verksamheten hos Agiloft, en leverantör av kontraktscykelhantering. Tekniken i sig kan inte hantera alla dessa frågor, säger hon. – Det största hindret är inte tekniskt – det är mänskligt. Man kan köpa kraftfulla verktyg och ändå ha svårt att använda dem om människor inte litar på dem, förstår dem eller ser hur de passar in i deras arbete. Liksom Hodar och Ahmad ser även Ramos en växande efterfrågan på AI-utvärderingsteam, även om rollerna framträder mer som en kompetens än som formaliserade titlar. – När organisationer går vidare från experimentstadiet inser de att AI inte kan implementeras enbart på grund av entusiasm. En formell utvärderingsdisciplin blir nödvändig när organisationer skalar upp AI, betonar hon. – I slutändan handlar AI-utvärdering inte bara om säkerhet – det handlar om att säkerställa att AI driver klarhet och handling snarare än att skapa mer brus. Eller, som vi formulerar det internt, vi använder AI för att driva klarhet och handling – inte för att överväldiga teamen med fler dashboards. Ramos befordrades nyligen från vice vd för it till vice vd för AI-verksamheten, och hennes team består av en AI-verksamhetschef, en AI-agentingenjör och en GPT- och AI-systemchef, säger hon. Målet är att integrera utvärdering i Agilofts AI-verksamhetsmodell. När organisationer mognar i sin användning av AI skapar en övergång från entusiasm till disciplinerad utvärdering ett behov av en strukturerad utvärderingsfunktion, tillägger hon. – Enligt min erfarenhet är en av de största riskerna att AI-initiativ drivs av de som skriker högst snarare än av verkliga operativa prioriteringar. Jag tycker inte att AI-utvecklingen ska baseras på de högsta rösterna, utan på de mest välgrundade rösterna som förstärks för att få genomslag i organisationen. I de flesta företag bör utvärderingsrollen ligga i skärningspunkten mellan it, säkerhet, dataledning och operativa intressenter, säger Ramos och tillägger att utvärderingsledare också måste ha en djup förståelse för hur organisationen fungerar. – En av anledningarna till att AI-utvärdering misslyckas är att företag inte alltid förstår sina egna arbetsflöden. Man kan inte utvärdera AI på ett intelligent sätt mot arbetsflöden som man inte har kartlagt, flaskhalsar som man inte har identifierat eller prioriteringar som man inte har anpassat.
Nya it-jobbet: utvärdera AI-resultat
AI Analys
Nyheten är positiv eftersom den handlar om framsteg inom AI-utvärdering, vilket är viktigt för organisationer som implementerar AI-teknik. Den visar på ökad efterfrågan på specialiserade it-jobb och betonar vikten av att säkerställa kvaliteten på AI-resultat. Det ger en känsla av innovation och utveckling inom tekniksektorn.
Detaljerad Analys
Ämnen:
teknik
Känsla:
hoppfull
inspirerande
Nyckelord:
AI-utvärdering
organisationer
teknisk utveckling
Varför är detta positivt?
- främjar bättre kvalitet på AI-implementeringar
- skapar nya möjligheter inom it-sektorn
Omfattning:
nationell
Gillade du denna nyhet?