Sut i Fesur Perfformiad AI?

Os ydych chi erioed wedi cludo model a wnaeth ddisgleirio mewn llyfr nodiadau ond a faglodd yn ystod y cynhyrchiad, rydych chi eisoes yn gwybod y gyfrinach: sut i fesur perfformiad AI . Mae'n system o wiriadau sy'n gysylltiedig â nodau byd go iawn. Mae cywirdeb yn giwt. Mae dibynadwyedd, diogelwch ac effaith busnes yn well.

Erthyglau y gallech fod eisiau eu darllen ar ôl yr un hon:

🔗 Sut i siarad ag AI
Canllaw i gyfathrebu'n effeithiol gydag AI er mwyn cael canlyniadau gwell yn gyson.

🔗 Beth yw ysgogi AI
Yn egluro sut mae awgrymiadau'n siapio ymatebion AI ac ansawdd allbwn.

🔗 Beth yw labelu data AI
Trosolwg o neilltuo labeli cywir i ddata ar gyfer modelau hyfforddi.

🔗 Beth yw moeseg AI
Cyflwyniad i egwyddorion moesegol sy'n arwain datblygu a defnyddio deallusrwydd artiffisial yn gyfrifol.

Beth sy'n gwneud perfformiad AI da? ✅

Fersiwn fer: mae perfformiad AI da yn golygu bod eich system yn ddefnyddiol, yn ddibynadwy, ac yn ailadroddadwy o dan amodau anhrefnus, newidiol. Yn benodol:

Ansawdd tasgau - mae'n cael yr atebion cywir am y rhesymau cywir.
Calibradu - mae sgoriau hyder yn cyd-fynd â realiti, fel y gallwch chi gymryd camau call.
Cadernid - mae'n dal i fyny o dan ddrifft, achosion ymyl, a ffws gelyniaethus.
Diogelwch a thegwch - mae'n osgoi ymddygiad niweidiol, rhagfarnllyd, neu anghydffurfiol.
Effeithlonrwydd - mae'n ddigon cyflym, yn ddigon rhad, ac yn ddigon sefydlog i redeg ar raddfa fawr.
Effaith ar fusnes - mae'n symud y dangosyddion perfformiad allweddol sy'n bwysig i chi mewn gwirionedd.

Os ydych chi eisiau pwynt cyfeirio ffurfiol ar gyfer alinio metrigau a risgiau, Fframwaith Rheoli Risg AI NIST yn seren ogleddol gadarn ar gyfer gwerthuso systemau dibynadwy. [1]

Y rysáit lefel uchel ar gyfer sut i fesur perfformiad AI 🍳

Meddyliwch mewn tair haen:

Metrigau tasg - cywirdeb ar gyfer y math o dasg: dosbarthu, atchweliad, graddio, cynhyrchu, rheoli, ac ati.
Metrigau system - hwyrni, trwybwn, cost fesul galwad, cyfraddau methiant, larymau drifft, SLAau amser gweithredu.
Metrigau canlyniad - y canlyniadau busnes a defnyddiwr rydych chi eu heisiau mewn gwirionedd: trosi, cadw, digwyddiadau diogelwch, llwyth adolygu â llaw, cyfaint tocynnau.

Mae cynllun mesur gwych yn cymysgu'r tri yn fwriadol. Fel arall, rydych chi'n cael roced nad yw byth yn gadael y llwyfan lansio.

Metrigau craidd yn ôl math o broblem - a phryd i ddefnyddio pa un 🎯

1) Dosbarthiad

Manwl gywirdeb, Adalw, F1 - y triawd diwrnod cyntaf. F1 yw'r cymedr harmonig o fanwl gywirdeb ac adalw; yn ddefnyddiol pan fo dosbarthiadau'n anghytbwys neu gostau'n anghymesur. [2]
ROC-AUC - graddio dosbarthwyr agnostig o ran trothwy; pan fo canlyniadau positif yn brin, archwiliwch PR-AUC. [2]
Cywirdeb cytbwys - cyfartaledd y cof ar draws dosbarthiadau; yn ddefnyddiol ar gyfer labeli gwyrdroëdig. [2]

Gwylio peryglon: gall cywirdeb yn unig fod yn gamarweiniol iawn gydag anghydbwysedd. Os yw 99% o ddefnyddwyr yn gyfreithlon, mae model twp sydd bob amser yn gyfreithlon yn sgorio 99% ac yn methu eich tîm twyll cyn cinio.

2) Atchweliad

MAE ar gyfer gwall darllenadwy gan bobl; RMSE pan fyddwch chi eisiau cosbi methiannau mawr; R² ar gyfer amrywiant wedi'i egluro. Yna gwiriwch ddosraniadau a phlotiau gweddilliol o ran synnwyr cyffredin. [2]
(Defnyddiwch unedau sy'n gyfeillgar i'r parth fel y gall rhanddeiliaid deimlo'r gwall mewn gwirionedd.)

3) Rhestru, adfer, argymhellion

nDCG - yn gofalu am safle a pherthnasedd wedi'i raddio; safon ar gyfer ansawdd chwilio.
MRR - yn canolbwyntio ar ba mor gyflym y mae'r eitem berthnasol gyntaf yn ymddangos (gwych ar gyfer tasgau "dod o hyd i un ateb da").
(Mae cyfeiriadau gweithredu ac enghreifftiau gweithredol mewn llyfrgelloedd metrig prif ffrwd.) [2]

4) Cynhyrchu a chrynhoi testun

BLEU a ROUGE - metrigau gorgyffwrdd clasurol; yn ddefnyddiol fel llinellau sylfaen.
metrigau sy'n seiliedig ar fewnosod (e.e., BERTScore) yn aml yn cydberthyn yn well â barn ddynol; parwch bob amser â sgoriau dynol ar gyfer arddull, ffyddlondeb a diogelwch. [4]

5) Ateb cwestiynau

Cyfatebiaeth Union ac F1 lefel tocyn yn gyffredin ar gyfer sicrhau ansawdd echdynnol; os oes rhaid i atebion ddyfynnu ffynonellau, mesurwch sail yr ateb (gwiriadau cefnogi ateb).

Calibradu, hyder, a lens Brier 🎚️

Sgoriau hyder yw lle mae llawer o systemau'n gorwedd yn dawel. Rydych chi eisiau tebygolrwyddau sy'n adlewyrchu realiti fel y gall gweithredwyr osod trothwyon, llwybro at bobl, neu brisio risg.

Cromliniau calibradu - delweddu tebygolrwydd rhagfynegedig yn erbyn amlder empirig.
Sgôr Brier - rheol sgorio briodol ar gyfer cywirdeb tebygolrwydd; mae is yn well. Mae'n arbennig o ddefnyddiol pan fyddwch chi'n poeni am ansawdd y tebygolrwydd, nid dim ond y safle. [3]

Nodyn maes: gall F1 ychydig yn “waeth” ond calibradu llawer gwell yn aruthrol - oherwydd gall pobl ymddiried yn y sgoriau o’r diwedd.

Diogelwch, rhagfarn, a thegwch - mesurwch yr hyn sy'n bwysig 🛡️⚖️

Gall system fod yn gywir ar y cyfan a dal i niweidio grwpiau penodol. Tracio grwpiedig a meini prawf tegwch:

Cydraddoldeb demograffig - cyfraddau cadarnhaol cyfartal ar draws grwpiau.
Odds cyfartal / Cyfle cyfartal - cyfraddau gwall cyfartal neu gyfraddau gwir-gadarnhaol ar draws grwpiau; defnyddiwch y rhain i ganfod a rheoli cyfaddawdau, nid fel stampiau pasio-methu un ergyd. [5]

Awgrym ymarferol: dechreuwch gyda dangosfyrddau sy'n sleisio metrigau craidd yn ôl priodoleddau allweddol, yna ychwanegwch fetrigau tegwch penodol yn ôl gofynion eich polisïau. Mae'n swnio'n ffyslyd, ond mae'n rhatach na digwyddiad.

LLMs a RAG - llyfryn mesur sy'n gweithio mewn gwirionedd 📚🔍

Mae mesur systemau cynhyrchiol yn… anodd. Gwnewch hyn:

Diffinio canlyniadau fesul achos defnydd: cywirdeb, defnyddioldeb, diniwed, glynu wrth arddull, tôn y brand, sail dyfynnu, ansawdd gwrthod.
Awtomeiddiwch werthusiadau sylfaenol gyda fframweithiau cadarn (e.e., offer gwerthuso yn eich pentwr) a'u cadw wedi'u fersiynu gyda'ch setiau data.
Ychwanegwch fetrigau semantig (yn seiliedig ar fewnosod) ynghyd â metrigau gorgyffwrdd (BLEU/ROUGE) er mwyn sicrhau synnwyr cyffredin. [4]
Sylfaen offeryn mewn RAG: cyfradd taro adferiad, cywirdeb/adalw cyd-destun, gorgyffwrdd ateb-cefnogaeth.
Adolygiad dynol gyda chytundeb - mesurwch gysondeb y graddwr (e.e., κ Cohen neu κ Fleiss) fel nad yw eich labeli yn ddirgryniadau.

Bonws: canraddau oedi logio a chost tocyn neu gyfrifo fesul tasg. Does neb wrth ei fodd ag ateb barddonol sy'n cyrraedd ddydd Mawrth nesaf.

Y tabl cymharu - offer sy'n eich helpu i fesur perfformiad AI 🛠️📊

(Ydy, mae ychydig yn flêr yn fwriadol - mae nodiadau go iawn yn flêr.)

Offeryn	Cynulleidfa orau	Pris	Pam mae'n gweithio - cymeriad cyflym
metrigau scikit-learn	Ymarferwyr ML	Am ddim	Gweithrediadau canonaidd ar gyfer dosbarthu, atchweliad, graddio; hawdd eu pobi i mewn i brofion. [2]
Gwerthuso MLflow / GenAI	Gwyddonwyr data, MLOps	Am ddim + taledig	Rhediadau canolog, metrigau awtomataidd, beirniaid LLM, sgorwyr personol; yn cofnodi arteffactau'n lân.
Yn amlwg	Timau eisiau dangosfyrddau'n gyflym	OSS + cwmwl	100+ metrig, adroddiadau drifft ac ansawdd, bachynnau monitro - delweddau braf mewn cyfyngiad.
Pwysau a Rhagfarnau	Sefydliadau sy'n drwm ar arbrofion	Haen am ddim	Mae cymhariaethau ochr yn ochr, setiau data gwerthuso, beirniaid; tablau ac olrheini yn daclus braidd.
LangSmith	Adeiladwyr apiau LLM	Wedi'i dalu	Olrhain pob cam, cymysgu adolygiad dynol â gwerthuswyr rheolau neu LLM; gwych ar gyfer RAG.
TruLens	Cariadon gwerthuso LLM ffynhonnell agored	OSS	Swyddogaethau adborth i sgorio gwenwyndra, sailoldeb, perthnasedd; integreiddio yn unrhyw le.
Disgwyliadau Mawr	Sefydliadau sy'n rhoi ansawdd data yn gyntaf	OSS	Ffurfiolwch ddisgwyliadau ar ddata - oherwydd mae data gwael yn difetha pob metrig beth bynnag.
Gwiriadau Dwfn	Profi a CI/CD ar gyfer ML	OSS + cwmwl	Profi ar gyfer drifft data, problemau modelu, a monitro, wedi'i gynnwys gan fatris; rheiliau gwarchod da.

Mae prisiau'n newid - gwiriwch y dogfennau. Ac ie, gallwch chi gymysgu'r rhain heb i'r heddlu offer ymddangos.

Trothwyon, costau, a chromliniau penderfyniad - y cyfrinach 🧪

Peth rhyfedd ond gwir: gall dau fodel gyda'r un ROC-AUC fod â gwerth busnes gwahanol iawn yn dibynnu ar eich trothwy a'ch cymhareb cost.

Taflen gyflym i'w hadeiladu:

Gosodwch gost positif ffug yn erbyn negatif ffug mewn arian neu amser.
Ysgubo trothwyon a chyfrifo'r gost ddisgwyliedig fesul 1k o benderfyniadau.
Dewiswch y cost disgwyliedig lleiaf , yna ei gloi gyda monitro.

Defnyddiwch gromliniau PR pan fo canlyniadau positif yn brin, cromliniau ROC ar gyfer siâp cyffredinol, a chromliniau calibradu pan fo penderfyniadau'n dibynnu ar debygolrwyddau. [2][3]

Achos bach: model blaenoriaethu tocynnau cymorth gydag F1 cymedrol ond calibradu rhagorol yn torri ail-lwybrau â llaw ar ôl i weithrediadau newid o drothwy caled i lwybro haenog (e.e., “datrys yn awtomatig,” “adolygiad dynol,” “uwchgyfeirio”) wedi'i gysylltu â bandiau sgôr wedi'u calibradu.

Monitro, drifftio a rhybuddio ar-lein 🚨

Gwerthusiadau all-lein yw'r dechrau, nid y diwedd. Mewn cynhyrchiad:

Tracio drifft mewnbwn, drifft allbwn, a dirywiad perfformiad yn ôl segment.
Gosod gwiriadau rheiliau gwarchod - cyfradd rhithweledigaethau uchaf, trothwyon gwenwyndra, deltaau tegwch.
Ychwanegwch ddangosfyrddau canari ar gyfer latency p95, terfynau amser, a chost fesul cais.
Defnyddiwch lyfrgelloedd pwrpasol i gyflymu hyn; maen nhw'n cynnig dulliau drifftio, ansawdd a monitro sy'n barod i'w defnyddio.

Metaffor bach diffygiol: meddyliwch am eich model fel cychwynnydd surdoes - dydych chi ddim yn pobi unwaith ac yn cerdded i ffwrdd; rydych chi'n bwydo, yn gwylio, yn arogli, ac weithiau'n ailgychwyn.

Gwerthusiad dynol nad yw'n chwalu 🍪

Pan fydd pobl yn graddio allbynnau, mae'r broses yn bwysicach nag yr ydych chi'n meddwl.

Ysgrifennwch rubriciau tynn gydag enghreifftiau o basio yn erbyn ffiniol yn erbyn methu.
Hap-rhewwch a samplau dall pan fo modd.
Mesurwch gytundeb rhwng graddwyr (e.e., κ Cohen ar gyfer dau raddydd, κ Fleiss ar gyfer llawer) ac adnewyddu'r rubriciau os yw'r cytundeb yn llithro.

Mae hyn yn atal eich labeli dynol rhag symud yn ôl hwyliau neu gyflenwad coffi.

Ymchwiliad manwl: sut i fesur perfformiad AI ar gyfer LLMs yn RAG 🧩

Ansawdd adfer - adferiad@k, manylder@k, nDCG; sylw i ffeithiau aur. [2]
Ffyddlondeb atebion - gwiriadau dyfynnu a gwirio, sgoriau sail, archwiliadau gwrthwynebol.
Bodlonrwydd defnyddwyr - bawdiau, cwblhau tasgau, pellter golygu o'r drafftiau awgrymedig.
Diogelwch - gwenwyndra, gollyngiad PII, cydymffurfio â pholisi.
Cost ac oedi - tocynnau, trawiadau storfa, oedi p95 a p99.

Cysylltwch y rhain â chamau gweithredu busnes: os yw'r sailedd yn gostwng islaw llinell, llwybro'n awtomatig i fodd llym neu adolygiad dynol.

Llyfr chwarae syml i ddechrau heddiw 🪄

Diffiniwch y swydd - ysgrifennwch un frawddeg: beth mae'n rhaid i'r AI ei wneud ac i bwy.
Dewiswch 2–3 metrig tasg - ynghyd â graddnodi ac o leiaf un sleisen degwch. [2][3][5]
Penderfynwch ar drothwyon gan ddefnyddio cost - peidiwch â dyfalu.
Creu set werthuso fach iawn - 100–500 o enghreifftiau wedi'u labelu sy'n adlewyrchu cymysgedd cynhyrchu.
Awtomeiddiwch eich gwerthusiadau - cysylltwch werthuso/monitro i CI fel bod pob newid yn rhedeg yr un gwiriadau.
Monitro mewn cynnyrch - drifft, hwyrni, cost, baneri digwyddiadau.
Adolygu bob mis - tocio metrigau nad oes neb yn eu defnyddio; ychwanegu rhai sy'n ateb cwestiynau go iawn.
Penderfyniadau dogfennu - cerdyn sgôr byw y mae eich tîm yn ei ddarllen mewn gwirionedd.

Ie, dyna ni'n llythrennol. Ac mae'n gweithio.

Casgliadau cyffredin a sut i'w hosgoi 🕳️🐇

Gor-ffitio i un metrig - defnyddiwch fasged fetrig sy'n cyd-fynd â chyd-destun y penderfyniad. [1][2]
Anwybyddu calibradu - dim ond braw yw hyder heb galibradu. [3]
Dim segmentu - bob amser yn ôl grwpiau defnyddwyr, daearyddiaeth, dyfais, iaith. [5]
Costau heb eu diffinio - os na fyddwch chi'n prisio gwallau, byddwch chi'n dewis y trothwy anghywir.
Drifft gwerthuso dynol - mesur cytundeb, adnewyddu rubriciau, ailhyfforddi adolygwyr.
Dim offeryniaeth diogelwch - ychwanegwch wiriadau tegwch, gwenwyndra a pholisi nawr, nid yn hwyrach. [1][5]

Yr ymadrodd y daethoch chi amdano: sut i fesur perfformiad AI - y Rhy Hir, Doeddwn i ddim yn ei Ddarllen 🧾

Dechreuwch gyda chanlyniadau clir, yna pentyrrwch tasg, systema busnes . [1]
Defnyddiwch y metrigau cywir ar gyfer y gwaith - F1 ac ROC-AUC ar gyfer dosbarthu; nDCG/MRR ar gyfer graddio; metrigau gorgyffwrdd + semantig ar gyfer cynhyrchu (wedi'u paru â bodau dynol). [2][4]
Calibradu eich tebygolrwyddau a phrisio eich gwallau i ddewis trothwyon. [2][3]
Ychwanegwch tegwch gyda sleisys grŵp a rheolwch gyfaddawdau'n benodol. [5]
Awtomeiddiwch werthusiadau a monitro fel y gallwch ailadrodd heb ofn.

Rydych chi'n gwybod sut mae hi - mesurwch yr hyn sy'n bwysig, neu byddwch chi'n gwella'r hyn nad yw'n bwysig.

Cyfeiriadau

[1] NIST. Fframwaith Rheoli Risg AI (AI RMF). darllen mwy
[2] scikit-learn. Gwerthuso model: meintioli ansawdd rhagfynegiadau (Canllaw Defnyddiwr). darllen mwy
[3] scikit-learn. Calibrad tebygolrwydd (cromliniau calibrad, sgôr Brier). darllen mwy
[4] Papineni et al. (2002). BLEU: Dull ar gyfer Gwerthuso Cyfieithu Peirianyddol yn Awtomatig. ACL. darllen mwy
[5] Hardt, Price, Srebro (2016). Cyfle Cyfartal mewn Dysgu dan Oruchwyliaeth. NeurIPS. darllen mwy

Dewch o hyd i'r AI Diweddaraf yn y Siop Swyddogol ar gyfer Cynorthwywyr AI

Amdanom Ni

Yn ôl i'r blog