beth yw modelau AI

Beth yw Modelau AI? Ymchwiliad Dwfn.

Ydych chi erioed wedi sgrolio am 2 y bore yn gofyn beth ar y ddaear yw modelau AI a pham mae pawb yn siarad amdanyn nhw fel swynion hud? Fi hefyd. Dyma fy nhaith gerdded, sydd ddim yn rhy ffurfiol ac weithiau'n rhagfarnllyd, i'ch tywys chi o "wel, dim syniad" i "beryglus o hyderus mewn partïon cinio." Byddwn ni'n trafod: beth ydyn nhw, beth sy'n eu gwneud nhw'n ddefnyddiol mewn gwirionedd (nid dim ond yn ddisglair), sut maen nhw'n cael eu hyfforddi, sut i ddewis heb fynd yn ansicr, ac ychydig o faglau rydych chi'n dysgu amdanyn nhw ar ôl iddyn nhw brifo.

Erthyglau y gallech fod eisiau eu darllen ar ôl yr un hon:

🔗 Beth yw arbitrage AI: Y gwir y tu ôl i'r gair poblogaidd
Yn egluro arbitrage AI, ei hype, a'r cyfleoedd go iawn.

🔗 Beth yw AI symbolaidd: Popeth sydd angen i chi ei wybod
Yn cwmpasu AI symbolaidd, ei ddulliau, a chymwysiadau modern.

🔗 Gofynion storio data ar gyfer AI: Yr hyn sydd angen i chi ei wybod
Yn dadansoddi anghenion storio data AI ac ystyriaethau ymarferol.


Felly… beth yw modelau AI, mewn gwirionedd? 🧠

Ar ei symlaf: dim ond swyddogaeth sydd wedi'i dysgu . Rydych chi'n rhoi mewnbynnau iddo, mae'n poeri allbynnau allan. Y broblem yw ei fod yn darganfod sut trwy fynd trwy dunelli o enghreifftiau a'i addasu ei hun i fod yn "llai anghywir" bob tro. Ailadroddwch hynny ddigon ac mae'n dechrau gweld patrymau nad oeddech chi hyd yn oed yn sylweddoli eu bod yno.

Os ydych chi wedi clywed enwau fel atchweliad llinol, coed penderfyniad, rhwydweithiau niwral, trawsnewidyddion, modelau trylediad, neu hyd yn oed k-neighbors agosaf - ie, maen nhw i gyd yn riffiau ar yr un thema: mae data'n mynd i mewn, mae model yn dysgu mapio, mae canlyniad yn dod allan. Gwisgoedd gwahanol, yr un sioe.


Beth sy'n gwahanu'r teganau oddi wrth yr offer go iawn ✅

Mae llawer o fodelau'n edrych yn wych mewn demo ond yn methu yn ystod cynhyrchiad. Mae'r rhai sy'n aros fel arfer yn rhannu rhestr fer o nodweddion aeddfed:

  • Cyffredinoli - yn trin data na welwyd erioed heb chwalu.

  • Dibynadwyedd - nid yw'n ymddwyn fel tafliad darn arian pan fydd mewnbynnau'n mynd yn rhyfedd.

  • Diogelwch a Gwarcheidwad - anoddach i'w hapchwarae neu ei gamddefnyddio.

  • Esboniadwyedd - nid bob amser yn glir iawn, ond o leiaf yn ddadfygadwy.

  • Preifatrwydd a Thegwch - yn parchu ffiniau data ac nid yw'n llawn rhagfarn.

  • Effeithlonrwydd - digon fforddiadwy i redeg ar raddfa fawr mewn gwirionedd.

Dyna'r rhestr ddillad y mae rheoleiddwyr a fframweithiau risg hefyd yn eu caru - dilysrwydd, diogelwch, atebolrwydd, tryloywder, tegwch, yr holl bethau mwyaf poblogaidd. Ond a dweud y gwir, nid pethau braf i'w cael yw'r rhain; os yw pobl yn dibynnu ar eich system, maen nhw'n bwysig iawn.


Gwiriad synnwyr cyffredin cyflym: modelau vs algorithmau vs data 🤷

Dyma'r rhaniad tair rhan:

  • Model - y "peth" dysgedig sy'n trawsnewid mewnbynnau yn allbynnau.

  • Algorithm - y rysáit sy'n hyfforddi neu'n rhedeg y model (meddyliwch am ddisgyniad graddiant, chwiliad trawst).

  • Data - yr enghreifftiau crai sy'n dysgu'r model sut i ymddwyn.

Trosiad braidd yn drwsgl: y data yw eich cynhwysion, yr algorithm yw'r rysáit, a'r model yw'r gacen. Weithiau mae'n flasus, ar adegau eraill mae'n suddo yn y canol oherwydd eich bod wedi cipolwg yn rhy fuan.


Teuluoedd o fodelau AI y byddwch chi'n cwrdd â nhw mewn gwirionedd 🧩

Mae categorïau diddiwedd, ond dyma'r rhestr ymarferol:

  1. Modelau llinol a logistaidd - syml, cyflym, dehongladwy. Llinellau sylfaen heb eu curo o hyd ar gyfer data tablaidd.

  2. Coed ac ensembles - mae coed penderfyniad yn holltiadau os-yna; cyfunwch goedwig neu hwbwch nhw ac maen nhw'n syfrdanol o gryf.

  3. Rhwydweithiau niwral cyfryngol (CNNs) - asgwrn cefn adnabod delweddau/fideo. Hidlau → ymylon → siapiau → gwrthrychau.

  4. Modelau dilyniant: RNNs a thrawsnewidyddion - ar gyfer testun, lleferydd, proteinau, cod. Hunan-sylw trawsnewidyddion oedd y newidiwr gêm [3].

  5. Modelau trylediad - cynhyrchiol, troi sŵn ar hap yn ddelweddau cydlynol gam wrth gam [4].

  6. Rhwydweithiau niwral graff (GNNs) - wedi'u hadeiladu ar gyfer rhwydweithiau a pherthnasoedd: moleciwlau, graffiau cymdeithasol, cylchoedd twyll.

  7. Dysgu atgyfnerthu (DL) - asiantau treial a chamgymeriad yn optimeiddio gwobr. Meddyliwch am roboteg, gemau, penderfyniadau dilyniannol.

  8. Hen atebion dibynadwy: kNN, Naive Bayes - llinellau sylfaen cyflym, yn enwedig ar gyfer testun, pan fyddwch chi angen atebion ddoe .

Nodyn ochr: ar ddata tablaidd, peidiwch â'i or-gymhlethu. Mae atchweliad logistaidd neu goed wedi'u hybu yn aml yn taro rhwydi dwfn. Mae trawsnewidyddion yn wych, ond nid ym mhobman.


Sut olwg sydd ar hyfforddiant o dan y cwfl 🔧

Mae'r rhan fwyaf o fodelau modern yn dysgu trwy leihau ffwythiant colled trwy ryw fath o ddisgyniad graddol . Mae ôl-leoli yn gwthio'r cywiriadau yn ôl fel bod pob paramedr yn gwybod sut i symud. Ychwanegwch driciau fel stopio'n gynnar, rheoleiddio, neu optimeiddwyr clyfar fel nad yw'n mynd i anhrefn.

Gwiriadau realiti sy'n werth eu tapio uwchben eich desg:

  • Ansawdd data > dewis model. O ddifrif.

  • Bob amser, defnyddiwch rywbeth syml i lunio'r llinell sylfaen. Os yw model llinol yn methu, mae'n debyg bod eich piblinell ddata yn methu hefyd.

  • Gwyliwch y dilysu. Os yw'r golled hyfforddi yn gostwng ond y golled dilysu yn cynyddu - helo, gor-ffitio.


Gwerthuso modelau: mae cywirdeb yn gorwedd 📏

Mae cywirdeb yn swnio'n braf, ond mae'n rhif sengl ofnadwy. Yn dibynnu ar eich tasg:

  • Manwl gywirdeb - pan fyddwch chi'n dweud positif, pa mor aml ydych chi'n iawn?

  • Cofiwch - o'r holl bethau cadarnhaol go iawn, faint wnaethoch chi ddod o hyd iddyn nhw?

  • F1 - yn cydbwyso cywirdeb a galw i gof.

  • Cromliniau PR - yn enwedig ar ddata anghytbwys, llawer mwy gonest na ROC [5].

Bonws: gwiriwch y calibradu (a yw'r tebygolrwyddau'n golygu unrhyw beth?) a'r drifft (a yw eich data mewnbwn yn symud o dan eich traed?). Mae hyd yn oed model "gwych" yn mynd yn hen ffasiwn.


Llywodraethu, risg, rheolau'r ffordd 🧭

Unwaith y bydd eich model yn cyffwrdd â bodau dynol, mae cydymffurfiaeth yn bwysig. Dau angor mawr:

  • RMF AI NIST - gwirfoddol ond ymarferol, gyda chamau cylch bywyd (llywodraethu, mapio, mesur, rheoli) a bwcedi dibynadwyedd [1].

  • Deddf AI yr UE - rheoleiddio sy'n seiliedig ar risg, sydd eisoes yn gyfraith o fis Gorffennaf 2024, yn gosod dyletswyddau llym ar gyfer systemau risg uchel a hyd yn oed rhai modelau pwrpas cyffredinol [2].

Y gwir amdani yw dogfennu'r hyn a adeiladwyd gennych, sut y gwnaethoch ei brofi, a pha risgiau y gwnaethoch eu gwirio. Yn arbed galwadau brys hanner nos yn ddiweddarach.


Dewis model heb golli eich meddwl 🧭➡️

Proses ailadroddadwy:

  1. Diffiniwch y penderfyniad - beth yw camgymeriad da yn erbyn camgymeriad drwg?

  2. Data archwilio - maint, cydbwysedd, glendid.

  3. Gosod cyfyngiadau - esboniadwyedd, oedi, cyllideb.

  4. Rhedeg llinellau sylfaen - dechreuwch gyda llinol/logistig neu goeden fach.

  5. Ailadroddwch yn glyfar - ychwanegwch nodweddion, tiwniwch, yna newidiwch deuluoedd os bydd yr enillion yn cyrraedd y llwyfandir.

Mae'n ddiflas, ond mae diflas yn dda yma.


Ciplun cymhariaeth 📋

Math o fodel Cynulleidfa Pris-isel Pam mae'n gweithio
Llinol a Logisteg dadansoddwyr, gwyddonwyr isel–canolig pwerdy tablaidd cyflym, dehongladwy
Coed Penderfyniadau timau cymysg isel holltiadau y gellir eu darllen gan bobl, trin anlinellol
Coedwig Ar Hap timau cynnyrch canolig mae ensembles yn lleihau amrywiant, cyffredinolwyr cryf
Coed â Hwb Graddiant gwyddonwyr data canolig SOTA ar dabl, cryf gyda nodweddion blêr
CNNs pobl weledigaeth canolig–uchel cyfuniad → hierarchaethau gofodol
Trawsnewidyddion NLP + amlfoddol uchel mae hunan-sylw yn graddio'n hyfryd [3]
Modelau Gwasgariad timau creadigol uchel mae dad-sŵn yn cynhyrchu hud cynhyrchiol [4]
GNNs nerds graff canolig–uchel mae trosglwyddo negeseuon yn amgodio perthnasoedd
kNN / Bayes Naïf hacwyr ar frys isel iawn llinellau sylfaen syml, defnydd ar unwaith
Dysgu Atgyfnerthu ymchwil-drwm canolig–uchel yn optimeiddio gweithredoedd dilyniannol, ond yn anoddach i'w dofi

Yr “arbenigeddau” ar waith 🧪

  • Delweddau → Mae CNNs yn rhagori trwy bentyrru patrymau lleol yn rhai mwy.

  • Iaith → Mae trawsnewidyddion, gyda hunan-sylw, yn trin cyd-destun hir [3].

  • Mae graffiau → GNNs yn disgleirio pan fydd cysylltiadau'n bwysig.

  • Cyfryngau cynhyrchiol → Modelau trylediad, dad-sŵn cam wrth gam [4].


Data: yr MVP tawel 🧰

Ni all modelau arbed data gwael. Hanfodion:

  • Rhannu setiau data i'r dde (dim gollyngiadau, parchu amser).

  • Ymdrin ag anghydbwysedd (ailsamplu, pwysau, trothwyon).

  • Peiriannu nodweddion yn ofalus - hyd yn oed modelau dwfn yn elwa.

  • Croes-ddilysu er mwyn synnwyr cyffredin.


Mesur llwyddiant heb dwyllo'ch hun 🎯

Cysylltu metrigau â chostau go iawn. Enghraifft: dosbarthu tocynnau cymorth.

  • Mae galw'n ôl yn rhoi hwb i gyfradd dal tocynnau brys.

  • Mae manwl gywirdeb yn atal asiantau rhag boddi mewn sŵn.

  • Mae F1 yn cydbwyso'r ddau.

  • Tracio drifft a graddnodi fel nad yw'r system yn pydru'n dawel.


Risg, tegwch, dogfennau - gwnewch hynny'n gynnar 📝

Meddyliwch am ddogfennaeth nid fel biwrocratiaeth ond fel yswiriant. Gwiriadau rhagfarn, profion cadernid, ffynonellau data - ysgrifennwch nhw i lawr. Mae fframweithiau fel y RMF AI [1] a chyfreithiau fel Deddf AI yr UE [2] yn dod yn fantol ar y bwrdd beth bynnag.


Map ffordd cychwyn cyflym 🚀

  1. Hoeliwch y penderfyniad a'r metrig.

  2. Casglwch set ddata glân.

  3. Llinell sylfaen gyda llinol/coeden.

  4. Neidiwch i'r teulu cywir ar gyfer y modd.

  5. Gwerthuswch gyda metrigau priodol.

  6. Dogfennu risgiau cyn eu cludo.


Cwestiynau Cyffredin rownd mellt ⚡

  • Arhoswch, felly eto - beth yw model AI?
    Swyddogaeth wedi'i hyfforddi ar ddata i fapio mewnbynnau i allbynnau. Cyffredinoli yw'r hud, nid cofio.

  • A yw modelau mwy bob amser yn ennill?
    Nid ar dablau - mae coed yn dal i reoli. Ar destun/delweddau, ie, mae maint yn aml yn helpu [3][4].

  • Esboniadwyedd vs cywirdeb?
    ​​Weithiau'n gyfaddawd. Defnyddiwch strategaethau hybrid.

  • Addasu'n fanwl neu beiriannu prydlon?
    Mae'n dibynnu - mae'r gyllideb a chwmpas y dasg yn pennu. Mae lle i'r ddau.


TL;DR 🌯

Modelau AI = swyddogaethau sy'n dysgu o ddata. Nid cywirdeb yn unig sy'n eu gwneud yn ddefnyddiol ond ymddiriedaeth, rheoli risg, a defnydd meddylgar. Dechreuwch yn syml, mesurwch yr hyn sy'n bwysig, dogfennwch y rhannau hyll, yna (a dim ond wedyn) ewch yn ffansi.

Os mai dim ond un frawddeg a gedwir: mae modelau AI yn swyddogaethau dysgedig, wedi'u hyfforddi gydag optimeiddio, wedi'u barnu gyda metrigau penodol i gyd-destun, ac wedi'u defnyddio gyda rheiliau gwarchod. Dyna'r cyfan.


Cyfeiriadau

  1. NIST - Fframwaith Rheoli Risg Deallusrwydd Artiffisial (AI RMF 1.0)
    NIST AI RMF 1.0 (PDF)

  2. Deddf Deallusrwydd Artiffisial yr UE - Cyfnodolyn Swyddogol (2024/1689, 12 Gorffennaf 2024)
    EUR-Lex: Deddf Deallusrwydd Artiffisial (PDF Swyddogol)

  3. Trawsnewidyddion / Hunan-sylw - Vaswani et al., Sylw yw'r Cyfan Sydd Ei Angen Arnoch (2017).
    arXiv:1706.03762 (PDF)

  4. Modelau Trylediad - Ho, Jain, Abbeel, Modelau Tebygolrwydd Trylediad Dad-sŵn (2020).
    arXiv:2006.11239 (PDF)

  5. PR vs ROC ar Anghydbwysedd - Saito a Rehmsmeier, PLOS ONE (2015).
    DOI: 10.1371/journal.pone.0118432


Dewch o hyd i'r AI Diweddaraf yn y Siop Swyddogol ar gyfer Cynorthwywyr AI

Amdanom Ni

Yn ôl i'r blog