Os ydych chi erioed wedi cludo model a wnaeth ddisgleirio mewn llyfr nodiadau ond a faglodd yn ystod y cynhyrchiad, rydych chi eisoes yn gwybod y gyfrinach: sut i fesur perfformiad AI . Mae'n system o wiriadau sy'n gysylltiedig â nodau byd go iawn. Mae cywirdeb yn giwt. Mae dibynadwyedd, diogelwch ac effaith busnes yn well.
Erthyglau y gallech fod eisiau eu darllen ar ôl yr un hon:
🔗 Sut i siarad ag AI
Canllaw i gyfathrebu'n effeithiol gydag AI er mwyn cael canlyniadau gwell yn gyson.
🔗 Beth yw ysgogi AI
Yn egluro sut mae awgrymiadau'n siapio ymatebion AI ac ansawdd allbwn.
🔗 Beth yw labelu data AI
Trosolwg o neilltuo labeli cywir i ddata ar gyfer modelau hyfforddi.
🔗 Beth yw moeseg AI
Cyflwyniad i egwyddorion moesegol sy'n arwain datblygu a defnyddio deallusrwydd artiffisial yn gyfrifol.
Beth sy'n gwneud perfformiad AI da? ✅
Fersiwn fer: mae perfformiad AI da yn golygu bod eich system yn ddefnyddiol, yn ddibynadwy, ac yn ailadroddadwy o dan amodau anhrefnus, newidiol. Yn benodol:
-
Ansawdd tasgau - mae'n cael yr atebion cywir am y rhesymau cywir.
-
Calibradu - mae sgoriau hyder yn cyd-fynd â realiti, fel y gallwch chi gymryd camau call.
-
Cadernid - mae'n dal i fyny o dan ddrifft, achosion ymyl, a ffws gelyniaethus.
-
Diogelwch a thegwch - mae'n osgoi ymddygiad niweidiol, rhagfarnllyd, neu anghydffurfiol.
-
Effeithlonrwydd - mae'n ddigon cyflym, yn ddigon rhad, ac yn ddigon sefydlog i redeg ar raddfa fawr.
-
Effaith ar fusnes - mae'n symud y dangosyddion perfformiad allweddol sy'n bwysig i chi mewn gwirionedd.
Os ydych chi eisiau pwynt cyfeirio ffurfiol ar gyfer alinio metrigau a risgiau, Fframwaith Rheoli Risg AI NIST yn seren ogleddol gadarn ar gyfer gwerthuso systemau dibynadwy. [1]

Y rysáit lefel uchel ar gyfer sut i fesur perfformiad AI 🍳
Meddyliwch mewn tair haen :
-
Metrigau tasg - cywirdeb ar gyfer y math o dasg: dosbarthu, atchweliad, graddio, cynhyrchu, rheoli, ac ati.
-
Metrigau system - hwyrni, trwybwn, cost fesul galwad, cyfraddau methiant, larymau drifft, SLAau amser gweithredu.
-
Metrigau canlyniad - y canlyniadau busnes a defnyddiwr rydych chi eu heisiau mewn gwirionedd: trosi, cadw, digwyddiadau diogelwch, llwyth adolygu â llaw, cyfaint tocynnau.
Mae cynllun mesur gwych yn cymysgu'r tri yn fwriadol. Fel arall, rydych chi'n cael roced nad yw byth yn gadael y llwyfan lansio.
Metrigau craidd yn ôl math o broblem - a phryd i ddefnyddio pa un 🎯
1) Dosbarthiad
-
Manwl gywirdeb, Adalw, F1 - y triawd diwrnod cyntaf. F1 yw'r cymedr harmonig o fanwl gywirdeb ac adalw; yn ddefnyddiol pan fo dosbarthiadau'n anghytbwys neu gostau'n anghymesur. [2]
-
ROC-AUC - graddio dosbarthwyr agnostig o ran trothwy; pan fo canlyniadau positif yn brin, archwiliwch PR-AUC . [2]
-
Cywirdeb cytbwys - cyfartaledd y cof ar draws dosbarthiadau; yn ddefnyddiol ar gyfer labeli gwyrdroëdig. [2]
Gwylio peryglon: gall cywirdeb yn unig fod yn gamarweiniol iawn gydag anghydbwysedd. Os yw 99% o ddefnyddwyr yn gyfreithlon, mae model twp sydd bob amser yn gyfreithlon yn sgorio 99% ac yn methu eich tîm twyll cyn cinio.
2) Atchweliad
-
MAE ar gyfer gwall darllenadwy gan bobl; RMSE pan fyddwch chi eisiau cosbi methiannau mawr; R² ar gyfer amrywiant wedi'i egluro. Yna gwiriwch ddosraniadau a phlotiau gweddilliol o ran synnwyr cyffredin. [2]
(Defnyddiwch unedau sy'n gyfeillgar i'r parth fel y gall rhanddeiliaid deimlo'r gwall mewn gwirionedd.)
3) Rhestru, adfer, argymhellion
-
nDCG - yn gofalu am safle a pherthnasedd wedi'i raddio; safon ar gyfer ansawdd chwilio.
-
MRR - yn canolbwyntio ar ba mor gyflym y mae'r eitem berthnasol gyntaf yn ymddangos (gwych ar gyfer tasgau "dod o hyd i un ateb da").
(Mae cyfeiriadau gweithredu ac enghreifftiau gweithredol mewn llyfrgelloedd metrig prif ffrwd.) [2]
4) Cynhyrchu a chrynhoi testun
-
BLEU a ROUGE - metrigau gorgyffwrdd clasurol; yn ddefnyddiol fel llinellau sylfaen.
-
metrigau sy'n seiliedig ar fewnosod (e.e., BERTScore ) yn aml yn cydberthyn yn well â barn ddynol; parwch bob amser â sgoriau dynol ar gyfer arddull, ffyddlondeb a diogelwch. [4]
5) Ateb cwestiynau
-
Cyfatebiaeth Union ac F1 lefel tocyn yn gyffredin ar gyfer sicrhau ansawdd echdynnol; os oes rhaid i atebion ddyfynnu ffynonellau, mesurwch sail yr ateb (gwiriadau cefnogi ateb).
Calibradu, hyder, a lens Brier 🎚️
Sgoriau hyder yw lle mae llawer o systemau'n gorwedd yn dawel. Rydych chi eisiau tebygolrwyddau sy'n adlewyrchu realiti fel y gall gweithredwyr osod trothwyon, llwybro at bobl, neu brisio risg.
-
Cromliniau calibradu - delweddu tebygolrwydd rhagfynegedig yn erbyn amlder empirig.
-
Sgôr Brier - rheol sgorio briodol ar gyfer cywirdeb tebygolrwydd; mae is yn well. Mae'n arbennig o ddefnyddiol pan fyddwch chi'n poeni am ansawdd y tebygolrwydd, nid dim ond y safle. [3]
Nodyn maes: gall F1 ychydig yn “waeth” ond calibradu llawer gwell aruthrol - oherwydd gall pobl ymddiried yn y sgoriau o’r diwedd.
Diogelwch, rhagfarn, a thegwch - mesurwch yr hyn sy'n bwysig 🛡️⚖️
Gall system fod yn gywir ar y cyfan a dal i niweidio grwpiau penodol. Tracio grwpiedig a meini prawf tegwch:
-
Cydraddoldeb demograffig - cyfraddau cadarnhaol cyfartal ar draws grwpiau.
-
Odds cyfartal / Cyfle cyfartal - cyfraddau gwall cyfartal neu gyfraddau gwir-gadarnhaol ar draws grwpiau; defnyddiwch y rhain i ganfod a rheoli cyfaddawdau, nid fel stampiau pasio-methu un ergyd. [5]
Awgrym ymarferol: dechreuwch gyda dangosfyrddau sy'n sleisio metrigau craidd yn ôl priodoleddau allweddol, yna ychwanegwch fetrigau tegwch penodol yn ôl gofynion eich polisïau. Mae'n swnio'n ffyslyd, ond mae'n rhatach na digwyddiad.
LLMs a RAG - llyfryn mesur sy'n gweithio mewn gwirionedd 📚🔍
Mae mesur systemau cynhyrchiol yn… anodd. Gwnewch hyn:
-
Diffinio canlyniadau fesul achos defnydd: cywirdeb, defnyddioldeb, diniwed, glynu wrth arddull, tôn y brand, sail dyfynnu, ansawdd gwrthod.
-
Awtomeiddiwch werthusiadau sylfaenol gyda fframweithiau cadarn (e.e., offer gwerthuso yn eich pentwr) a'u cadw wedi'u fersiynu gyda'ch setiau data.
-
Ychwanegwch fetrigau semantig (yn seiliedig ar fewnosod) ynghyd â metrigau gorgyffwrdd (BLEU/ROUGE) er mwyn sicrhau synnwyr cyffredin. [4]
-
Sylfaen offeryn mewn RAG: cyfradd taro adferiad, cywirdeb/adalw cyd-destun, gorgyffwrdd ateb-cefnogaeth.
-
Adolygiad dynol gyda chytundeb - mesurwch gysondeb y graddwr (e.e., κ Cohen neu κ Fleiss) fel nad yw eich labeli yn ddirgryniadau.
Bonws: canraddau oedi logio a chost tocyn neu gyfrifo fesul tasg. Does neb wrth ei fodd ag ateb barddonol sy'n cyrraedd ddydd Mawrth nesaf.
Y tabl cymharu - offer sy'n eich helpu i fesur perfformiad AI 🛠️📊
(Ydy, mae ychydig yn flêr yn fwriadol - mae nodiadau go iawn yn flêr.)
| Offeryn | Cynulleidfa orau | Pris | Pam mae'n gweithio - cymeriad cyflym |
|---|---|---|---|
| metrigau scikit-learn | Ymarferwyr ML | Am ddim | Gweithrediadau canonaidd ar gyfer dosbarthu, atchweliad, graddio; hawdd eu pobi i mewn i brofion. [2] |
| Gwerthuso MLflow / GenAI | Gwyddonwyr data, MLOps | Am ddim + taledig | Rhediadau canolog, metrigau awtomataidd, beirniaid LLM, sgorwyr personol; yn cofnodi arteffactau'n lân. |
| Yn amlwg | Timau eisiau dangosfyrddau'n gyflym | OSS + cwmwl | 100+ metrig, adroddiadau drifft ac ansawdd, bachynnau monitro - delweddau braf mewn cyfyngiad. |
| Pwysau a Rhagfarnau | Sefydliadau sy'n drwm ar arbrofion | Haen am ddim | Mae cymhariaethau ochr yn ochr, setiau data gwerthuso, beirniaid; tablau ac olrheini yn daclus braidd. |
| LangSmith | Adeiladwyr apiau LLM | Wedi'i dalu | Olrhain pob cam, cymysgu adolygiad dynol â gwerthuswyr rheolau neu LLM; gwych ar gyfer RAG. |
| TruLens | Cariadon gwerthuso LLM ffynhonnell agored | OSS | Swyddogaethau adborth i sgorio gwenwyndra, sailoldeb, perthnasedd; integreiddio yn unrhyw le. |
| Disgwyliadau Mawr | Sefydliadau sy'n rhoi ansawdd data yn gyntaf | OSS | Ffurfiolwch ddisgwyliadau ar ddata - oherwydd mae data gwael yn difetha pob metrig beth bynnag. |
| Gwiriadau Dwfn | Profi a CI/CD ar gyfer ML | OSS + cwmwl | Profi ar gyfer drifft data, problemau modelu, a monitro, wedi'i gynnwys gan fatris; rheiliau gwarchod da. |
Mae prisiau'n newid - gwiriwch y dogfennau. Ac ie, gallwch chi gymysgu'r rhain heb i'r heddlu offer ymddangos.
Trothwyon, costau, a chromliniau penderfyniad - y cyfrinach 🧪
Peth rhyfedd ond gwir: gall dau fodel gyda'r un ROC-AUC fod â gwerth busnes gwahanol iawn yn dibynnu ar eich trothwy a'ch cymhareb cost .
Taflen gyflym i'w hadeiladu:
-
Gosodwch gost positif ffug yn erbyn negatif ffug mewn arian neu amser.
-
Ysgubo trothwyon a chyfrifo'r gost ddisgwyliedig fesul 1k o benderfyniadau.
-
Dewiswch y cost disgwyliedig lleiaf , yna ei gloi gyda monitro.
Defnyddiwch gromliniau PR pan fo canlyniadau positif yn brin, cromliniau ROC ar gyfer siâp cyffredinol, a chromliniau calibradu pan fo penderfyniadau'n dibynnu ar debygolrwyddau. [2][3]
Achos bach: model blaenoriaethu tocynnau cymorth gydag F1 cymedrol ond calibradu rhagorol yn torri ail-lwybrau â llaw ar ôl i weithrediadau newid o drothwy caled i lwybro haenog (e.e., “datrys yn awtomatig,” “adolygiad dynol,” “uwchgyfeirio”) wedi'i gysylltu â bandiau sgôr wedi'u calibradu.
Monitro, drifftio a rhybuddio ar-lein 🚨
Gwerthusiadau all-lein yw'r dechrau, nid y diwedd. Mewn cynhyrchiad:
-
Tracio drifft mewnbwn , drifft allbwn , a dirywiad perfformiad yn ôl segment.
-
Gosod gwiriadau rheiliau gwarchod - cyfradd rhithweledigaethau uchaf, trothwyon gwenwyndra, deltaau tegwch.
-
Ychwanegwch ddangosfyrddau canari ar gyfer latency p95, terfynau amser, a chost fesul cais.
-
Defnyddiwch lyfrgelloedd pwrpasol i gyflymu hyn; maen nhw'n cynnig dulliau drifftio, ansawdd a monitro sy'n barod i'w defnyddio.
Metaffor bach diffygiol: meddyliwch am eich model fel cychwynnydd surdoes - dydych chi ddim yn pobi unwaith ac yn cerdded i ffwrdd; rydych chi'n bwydo, yn gwylio, yn arogli, ac weithiau'n ailgychwyn.
Gwerthusiad dynol nad yw'n chwalu 🍪
Pan fydd pobl yn graddio allbynnau, mae'r broses yn bwysicach nag yr ydych chi'n meddwl.
-
Ysgrifennwch rubriciau tynn gydag enghreifftiau o basio yn erbyn ffiniol yn erbyn methu.
-
Hap-rhewwch a samplau dall pan fo modd.
-
Mesurwch gytundeb rhwng graddwyr (e.e., κ Cohen ar gyfer dau raddydd, κ Fleiss ar gyfer llawer) ac adnewyddu'r rubriciau os yw'r cytundeb yn llithro.
Mae hyn yn atal eich labeli dynol rhag symud yn ôl hwyliau neu gyflenwad coffi.
Ymchwiliad manwl: sut i fesur perfformiad AI ar gyfer LLMs yn RAG 🧩
-
Ansawdd adfer - adferiad@k, manylder@k, nDCG; sylw i ffeithiau aur. [2]
-
Ffyddlondeb atebion - gwiriadau dyfynnu a gwirio, sgoriau sail, archwiliadau gwrthwynebol.
-
Bodlonrwydd defnyddwyr - bawdiau, cwblhau tasgau, pellter golygu o'r drafftiau awgrymedig.
-
Diogelwch - gwenwyndra, gollyngiad PII, cydymffurfio â pholisi.
-
Cost ac oedi - tocynnau, trawiadau storfa, oedi p95 a p99.
Cysylltwch y rhain â chamau gweithredu busnes: os yw'r sailedd yn gostwng islaw llinell, llwybro'n awtomatig i fodd llym neu adolygiad dynol.
Llyfr chwarae syml i ddechrau heddiw 🪄
-
Diffiniwch y swydd - ysgrifennwch un frawddeg: beth mae'n rhaid i'r AI ei wneud ac i bwy.
-
Dewiswch 2–3 metrig tasg - ynghyd â graddnodi ac o leiaf un sleisen degwch. [2][3][5]
-
Penderfynwch ar drothwyon gan ddefnyddio cost - peidiwch â dyfalu.
-
Creu set werthuso fach iawn - 100–500 o enghreifftiau wedi'u labelu sy'n adlewyrchu cymysgedd cynhyrchu.
-
Awtomeiddiwch eich gwerthusiadau - cysylltwch werthuso/monitro i CI fel bod pob newid yn rhedeg yr un gwiriadau.
-
Monitro mewn cynnyrch - drifft, hwyrni, cost, baneri digwyddiadau.
-
Adolygu bob mis - tocio metrigau nad oes neb yn eu defnyddio; ychwanegu rhai sy'n ateb cwestiynau go iawn.
-
Penderfyniadau dogfennu - cerdyn sgôr byw y mae eich tîm yn ei ddarllen mewn gwirionedd.
Ie, dyna ni'n llythrennol. Ac mae'n gweithio.
Casgliadau cyffredin a sut i'w hosgoi 🕳️🐇
-
Gor-ffitio i un metrig - defnyddiwch fasged fetrig sy'n cyd-fynd â chyd-destun y penderfyniad. [1][2]
-
Anwybyddu calibradu - dim ond braw yw hyder heb galibradu. [3]
-
Dim segmentu - bob amser yn ôl grwpiau defnyddwyr, daearyddiaeth, dyfais, iaith. [5]
-
Costau heb eu diffinio - os na fyddwch chi'n prisio gwallau, byddwch chi'n dewis y trothwy anghywir.
-
Drifft gwerthuso dynol - mesur cytundeb, adnewyddu rubriciau, ailhyfforddi adolygwyr.
-
Dim offeryniaeth diogelwch - ychwanegwch wiriadau tegwch, gwenwyndra a pholisi nawr, nid yn hwyrach. [1][5]
Yr ymadrodd y daethoch chi amdano: sut i fesur perfformiad AI - y Rhy Hir, Doeddwn i ddim yn ei Ddarllen 🧾
-
Dechreuwch gyda chanlyniadau clir , yna pentyrrwch tasg , system a busnes . [1]
-
Defnyddiwch y metrigau cywir ar gyfer y gwaith - F1 ac ROC-AUC ar gyfer dosbarthu; nDCG/MRR ar gyfer graddio; metrigau gorgyffwrdd + semantig ar gyfer cynhyrchu (wedi'u paru â bodau dynol). [2][4]
-
Calibradu eich tebygolrwyddau a phrisio eich gwallau i ddewis trothwyon. [2][3]
-
Ychwanegwch tegwch gyda sleisys grŵp a rheolwch gyfaddawdau'n benodol. [5]
-
Awtomeiddiwch werthusiadau a monitro fel y gallwch ailadrodd heb ofn.
Rydych chi'n gwybod sut mae hi - mesurwch yr hyn sy'n bwysig, neu byddwch chi'n gwella'r hyn nad yw'n bwysig.
Cyfeiriadau
[1] NIST. Fframwaith Rheoli Risg AI (AI RMF). darllen mwy
[2] scikit-learn. Gwerthuso model: meintioli ansawdd rhagfynegiadau (Canllaw Defnyddiwr). darllen mwy
[3] scikit-learn. Calibrad tebygolrwydd (cromliniau calibrad, sgôr Brier). darllen mwy
[4] Papineni et al. (2002). BLEU: Dull ar gyfer Gwerthuso Cyfieithu Peirianyddol yn Awtomatig. ACL. darllen mwy
[5] Hardt, Price, Srebro (2016). Cyfle Cyfartal mewn Dysgu dan Oruchwyliaeth. NeurIPS. darllen mwy