Beth yw Set Data AI?

Beth yw Set Data AI?

Os ydych chi'n adeiladu, prynu, neu hyd yn oed yn gwerthuso systemau AI, byddwch chi'n dod ar draws un cwestiwn syml, sef beth yw set ddata AI a pham mae mor bwysig? Fersiwn fer: dyma'r tanwydd, y llyfr coginio, ac weithiau'r cwmpawd ar gyfer eich model. 

Erthyglau y gallech fod eisiau eu darllen ar ôl yr un hon:

🔗 Sut mae AI yn rhagweld tueddiadau
Yn archwilio sut mae AI yn dadansoddi patrymau i ragweld digwyddiadau ac ymddygiadau yn y dyfodol.

🔗 Sut i fesur perfformiad AI
Metrigau a dulliau ar gyfer asesu cywirdeb, effeithlonrwydd a dibynadwyedd modelau.

🔗 Sut i siarad ag AI
Canllawiau ar lunio rhyngweithiadau gwell i wella ymatebion a gynhyrchir gan AI.

🔗 Beth yw ysgogi AI
Trosolwg o sut mae awgrymiadau'n siapio allbynnau AI ac ansawdd cyfathrebu cyffredinol.


Beth yw Set Data AI? Diffiniad cyflym 🧩

Beth yw set ddata AI? Mae'n gasgliad o enghreifftiau y mae eich model yn dysgu oddi wrthynt neu'n cael ei werthuso arnynt. Mae gan bob enghraifft:

  • Mewnbynnau - nodweddion y mae'r model yn eu gweld, fel darnau testun, delweddau, sain, rhesi tablau, darlleniadau synhwyrydd, graffiau.

  • Targedau - labeli neu ganlyniadau y dylai'r model eu rhagweld, fel categorïau, rhifau, rhychwantau testun, gweithredoedd, neu weithiau dim byd o gwbl.

  • Metadata - cyd-destun megis ffynhonnell, dull casglu, stampiau amser, trwyddedau, gwybodaeth caniatâd, a nodiadau ar ansawdd.

Meddyliwch amdano fel bocs cinio wedi'i bacio'n ofalus ar gyfer eich model: cynhwysion, labeli, ffeithiau maeth, ac ie, y nodyn gludiog sy'n dweud “peidiwch â bwyta'r rhan hon.” 🍱

Ar gyfer tasgau dan oruchwyliaeth, fe welwch fewnbynnau wedi'u paru â labeli penodol. Ar gyfer tasgau heb oruchwyliaeth, fe welwch fewnbynnau heb labeli. Ar gyfer dysgu atgyfnerthu, mae data yn aml yn edrych fel penodau neu lwybrau gyda chyflyrau, gweithredoedd, gwobrau. Ar gyfer gwaith amlfoddol, gall enghreifftiau gyfuno testun + delwedd + sain mewn un cofnod. Swnio'n ffansi; yn bennaf plymio.

Canllawiau ac arferion defnyddiol: mae'r Taflenni Data ar gyfer Setiau Data yn helpu timau i esbonio beth sydd y tu mewn a sut y dylid ei ddefnyddio [1], ac mae Cardiau Model yn ategu dogfennaeth data ar ochr y model [2].

 

Set Data Deallusrwydd Artiffisial

Beth Sy'n Gwneud Set Data AI Da ✅

Gadewch i ni fod yn onest, mae llawer o fodelau'n llwyddo oherwydd nad oedd y set ddata yn ofnadwy. Set ddata "dda" yw:

  • Cynrychioliadol o achosion defnydd go iawn, nid amodau labordy yn unig.

  • Wedi'i labelu'n gywir , gyda chanllawiau clir a dyfarnu cyfnodol. Mae metrigau cytundeb (e.e. mesurau arddull kappa) yn helpu i wirio cysondeb.

  • cyflawn a chytbwys i osgoi methiant distaw ar gynffonau hir. Mae anghydbwysedd yn normal; nid yw esgeulustod.

  • Yn glir o ran tarddiad , gyda chydsyniad, trwydded a chaniatâd wedi'u dogfennu. Mae'r gwaith papur diflas yn atal yr achosion cyfreithiol cyffrous.

  • Wedi'i ddogfennu'n dda gan ddefnyddio cardiau data neu daflenni data sy'n nodi'r defnydd bwriadedig, y terfynau, a'r dulliau methiant hysbys [1]

  • Wedi'i lywodraethu gan fersiynau, logiau newid, a chymeradwyaethau. Os na allwch atgynhyrchu'r set ddata, ni allwch atgynhyrchu'r model. Mae canllawiau o Fframwaith Rheoli Risg AI NIST yn trin ansawdd data a dogfennaeth fel pryderon o'r radd flaenaf [3].


Mathau o Setiau Data AI, yn ôl yr hyn rydych chi'n ei wneud 🧰

Yn ôl tasg

  • Dosbarthiad - e.e., sbam vs dim sbam, categorïau delweddau.

  • Atchweliad - rhagfynegi gwerth parhaus fel pris neu dymheredd.

  • Labelu dilyniant - endidau wedi'u henwi, rhannau o leferydd.

  • Cynhyrchu - crynodeb, cyfieithu, capsiynau delweddau.

  • Argymhelliad - defnyddiwr, eitem, rhyngweithiadau, cyd-destun.

  • Canfod anomaledd - digwyddiadau prin mewn cyfresi amser neu logiau.

  • Dysgu atgyfnerthu - cyflwr, gweithred, gwobr, dilyniannau cyflwr nesaf.

  • Adalw - dogfennau, ymholiadau, dyfarniadau perthnasedd.

Yn ôl modd

  • Tabwlaidd - colofnau fel oedran, incwm, trosiant. Tanbrisiedig, hynod effeithiol.

  • Testun - dogfennau, sgyrsiau, cod, postiadau fforwm, disgrifiadau cynnyrch.

  • Delweddau - lluniau, sganiau meddygol, teils lloeren; gyda neu heb fasgiau, blychau, pwyntiau allweddol.

  • Sain - tonffurfiau, trawsgrifiadau, tagiau siaradwr.

  • Fideo - fframiau, anodiadau amserol, labeli gweithredu.

  • Graffiau - nodau, ymylon, priodoleddau.

  • Cyfres amser - synwyryddion, cyllid, telemetreg.

Drwy oruchwyliaeth

  • Wedi'i labelu (aur, arian, wedi'i labelu'n awtomatig), wedi'i labelu'n wan , heb ei labelu , synthetig . Gall cymysgedd cacen o'r siop fod yn dda - os darllenwch y blwch.


Y tu mewn i'r blwch: strwythur, rhaniadau, a metadata 📦

Mae set ddata gadarn fel arfer yn cynnwys:

  • Cynllun - meysydd wedi'u teipio, unedau, gwerthoedd a ganiateir, trin null.

  • Holltiadau - hyfforddi, dilysu, profi. Cadwch ddata prawf wedi'i selio - ei drin fel y darn olaf o siocled.

  • Cynllun samplu - sut y gwnaethoch chi dynnu enghreifftiau o'r boblogaeth; osgoi samplau cyfleustra o un rhanbarth neu ddyfais.

  • Ychwanegiadau - fflipiau, cnydau, sŵn, paraffrasiadau, masgiau. Da pan maen nhw'n onest; niweidiol pan maen nhw'n dyfeisio patrymau nad ydyn nhw byth yn digwydd yn y gwyllt.

  • Fersiwnio - set ddata v0.1, v0.2… gyda logiau newid yn disgrifio deltaau.

  • Trwyddedau a chaniatâd - hawliau defnyddio, ailddosbarthu, a llifau dileu. Mae rheoleiddwyr diogelu data cenedlaethol (e.e., Swyddfa Archwilio Rhyngwladol y DU) yn darparu rhestrau gwirio prosesu ymarferol a chyfreithlon [4].


Cylch bywyd y set ddata, cam wrth gam 🔁

  1. Diffiniwch y penderfyniad - beth fydd y model yn ei benderfynu, a beth sy'n digwydd os yw'n anghywir.

  2. Nodweddion a labeli cwmpas - mesuradwy, arsylladwy, moesegol i'w casglu.

  3. Data ffynhonnell - offerynnau, logiau, arolygon, corpora cyhoeddus, partneriaid.

  4. Caniatâd a chyfreithiol - hysbysiadau preifatrwydd, optio allan, lleihau data. Gweler canllawiau'r rheoleiddwyr am y "pam" a'r "sut" [4].

  5. Casglu a storio - storio diogel, mynediad yn seiliedig ar rôl, trin PII.

  6. Label - anodwyr mewnol, torfoli, arbenigwyr; rheoli ansawdd gyda thasgau aur, archwiliadau, a metrigau cytundeb.

  7. Glanhau a normaleiddio - dad-ddyblygu, trin diffygion, safoni unedau, trwsio amgodio. Gwaith diflas, arwrol.

  8. Rhannu a dilysu - atal gollyngiadau; haenu lle bo'n berthnasol; ffafrio rhaniadau sy'n ymwybodol o amser ar gyfer data amserol; a defnyddio croes-ddilysu yn feddylgar ar gyfer amcangyfrifon cadarn [5].

  9. Dogfen - taflen ddata neu gerdyn data; defnydd bwriadedig, rhybuddion, cyfyngiadau [1].

  10. Monitro a diweddaru - canfod drifft, adnewyddu cadans, cynlluniau machlud. Mae RMF AI NIST yn fframio'r ddolen lywodraethu barhaus hon [3].

Awgrym cyflym, wedi'i siapio'n fyd go iawn: mae timau'n aml yn "ennill y demo" ond yn baglu mewn cynhyrchiad oherwydd bod eu set ddata yn symud yn dawel - llinellau cynnyrch newydd, maes wedi'i ailenwi, neu bolisi wedi'i newid. Mae log newid syml + pas ail-anodiadau cyfnodol yn osgoi'r rhan fwyaf o'r boen honno.


Ansawdd a gwerthuso data - ddim mor ddiflas ag y mae'n swnio 🧪

Mae ansawdd yn aml-ddimensiwn:

  • Cywirdeb - a yw labeli'n gywir? Defnyddiwch fetrigau cytundeb a dyfarnu cyfnodol.

  • Cyflawnrwydd - cwmpaswch y meysydd a'r dosbarthiadau sydd eu hangen arnoch chi mewn gwirionedd.

  • Cysondeb - osgoi labeli gwrthgyferbyniol ar gyfer mewnbynnau tebyg.

  • Amseroldeb - mae data hen ffasiwn yn ffosileiddio rhagdybiaethau.

  • Tegwch a rhagfarn - sylw ar draws demograffeg, ieithoedd, dyfeisiau, amgylcheddau; dechrau gydag archwiliadau disgrifiadol, yna profion straen. Mae arferion dogfennaeth yn gyntaf (taflenni data, cardiau model) yn gwneud y gwiriadau hyn yn weladwy [1], ac mae fframweithiau llywodraethu yn eu pwysleisio fel rheolaethau risg [3].

Ar gyfer gwerthuso modelau, defnyddiwch holltiadau priodol ac olrhain metrigau cyfartalog a metrigau'r grŵp gwaethaf. Gall cyfartaledd disglair guddio crater. Mae hanfodion croes-ddilysu wedi'u trafod yn dda mewn dogfennau offer ML safonol [5].


Moeseg, preifatrwydd, a thrwyddedu - y rheiliau gwarchod 🛡️

Nid yw data moesegol yn naws, mae'n broses:

  • Cyfyngiad ar ganiatâd a phwrpas - byddwch yn glir ynglŷn â defnyddiau a seiliau cyfreithiol [4].

  • Trin PII - lleihau, ffug-enwi, neu ddienwi yn ôl yr angen; ystyried technoleg sy'n gwella preifatrwydd pan fo risgiau'n uchel.

  • Priodoliad a thrwyddedau - parchu cyfyngiadau rhannu-fel-un a defnydd masnachol.

  • Rhagfarn a niwed - bydd archwiliad am gydberthnasau ffug (“golau dydd = diogel” yn ddryslyd iawn yn y nos).

  • Gwneud iawn - gwybod sut i ddileu data ar gais a sut i ddychwelyd modelau a hyfforddwyd arno (dogfennwch hyn yn eich taflen ddata) [1].


Pa mor fawr yw digon mawr? Maint a signal-i-sŵn 📏

Rheol gyffredinol: mae mwy o enghreifftiau fel arfer yn helpu os ydyn nhw'n berthnasol ac nid bron yn ddyblyg. Ond weithiau rydych chi'n well eich byd gyda llai o samplau, sy'n lanach ac wedi'u labelu'n well na gyda mynyddoedd o rai blêr.

Gwyliwch am:

  • Cromliniau dysgu - plotiwch berfformiad yn erbyn maint y sampl i weld a ydych chi wedi'ch rhwymo gan ddata neu fodel.

  • Sylw hir-gynffon - mae angen casglu wedi'i dargedu ar ddosbarthiadau prin ond hanfodol yn aml, nid dim ond mwy o swmp.

  • Labelwch sŵn - mesurwch, yna lleihewch; mae ychydig yn oddefadwy, nid yw ton llanw.

  • Symudiad dosbarthiad - efallai na fydd data hyfforddi o un rhanbarth neu sianel yn gyffredinoli i un arall; dilyswch ar ddata prawf tebyg i darged [5].

Pan fyddwch mewn amheuaeth, rhedwch gynlluniau peilot bach ac ehangwch. Mae fel sesnin - ychwanegu, blasu, addasu, ailadrodd.


Ble i ddod o hyd i setiau data a'u rheoli 🗂️

Adnoddau ac offer poblogaidd (nid oes angen cofio URLau ar hyn o bryd):

  • Setiau Data Wyneb Cofleidio - llwytho, prosesu, rhannu rhaglennol.

  • Chwilio Set Data Google - meta-chwilio ar draws y we.

  • Storfa ML UCI - clasuron wedi'u curadu ar gyfer llinellau sylfaen ac addysgu.

  • OpenML - tasgau + setiau data + rhediadau gyda tharddiad.

  • AWS Open Data / Google Cloud - corpora ar raddfa fawr, wedi'u cynnal.

Awgrym proffesiynol: peidiwch â lawrlwytho yn unig. Darllenwch y drwydded a'r daflen ddata , yna dogfennwch eich copi eich hun gyda rhifau fersiwn a tharddiad [1].


Labelu ac anodi - lle mae gwirionedd yn cael ei drafod ✍️

Anodiad yw lle mae eich canllaw label damcaniaethol yn ymgodymu â realiti:

  • Dylunio tasgau - ysgrifennu cyfarwyddiadau clir gydag enghreifftiau a gwrth-enghreifftiau.

  • Hyfforddiant anodiwr - hadau gydag atebion aur, rhedeg rowndiau calibradu.

  • Rheoli ansawdd - defnyddio metrigau cytundeb, mecanweithiau consensws, ac archwiliadau cyfnodol.

  • Offer - dewiswch offer sy'n gorfodi dilysu cynlluniau a chiwiau adolygu; gall hyd yn oed taenlenni weithio gyda rheolau a gwiriadau.

  • Dolenni adborth - cipio nodiadau anodwyr a modelu camgymeriadau i fireinio'r canllaw.

Os yw'n teimlo fel golygu geiriadur gyda thri ffrind sy'n anghytuno am goma… mae hynny'n normal. 🙃


Dogfennu data - gwneud gwybodaeth ymhlyg yn eglur 📒

taflen ddata neu gerdyn data ysgafn gwmpasu:

  • Pwy a'i casglodd, sut, a pham.

  • Defnyddiau bwriadedig a defnyddiau y tu allan i'r cwmpas.

  • Bylchau, rhagfarnau a dulliau methiant hysbys.

  • Protocol labelu, camau sicrhau ansawdd, ac ystadegau cytundeb.

  • Trwydded, caniatâd, cyswllt ar gyfer problemau, proses ddileu.

Templedi ac enghreifftiau: taflenni data ar gyfer Setiau Data a Chardiau Model yn fannau cychwyn a ddefnyddir yn helaeth [1].

Ysgrifennwch ef wrth i chi adeiladu, nid ar ôl hynny. Mae cof yn gyfrwng storio anwadal.


Tabl Cymharu - lleoedd i ddod o hyd i neu gynnal setiau data AI 📊

Ydy, mae hyn braidd yn farnllyd. Ac mae'r geiriad ychydig yn anwastad yn fwriadol. Mae'n iawn.

Offeryn / Storfa Cynulleidfa Pris Pam mae'n gweithio'n ymarferol
Setiau Data Wyneb Cofleidio Ymchwilwyr, peirianwyr Haen rydd Llwytho cyflym, ffrydio, sgriptiau cymunedol; dogfennau rhagorol; setiau data wedi'u fersiynu
Chwilio Set Data Google Pawb Am ddim Arwynebedd eang; gwych ar gyfer darganfod; weithiau metadata anghyson serch hynny
Storfa ML UCI Myfyrwyr, addysgwyr Am ddim Clasuron wedi'u curadu; bach ond taclus; da ar gyfer llinellau sylfaen ac addysgu
OpenML Ymchwilwyr atgynhyrchu Am ddim Tasgau + setiau data + rhediadau gyda'i gilydd; llwybrau tarddiad braf
Cofrestrfa Data Agored AWS Peirianwyr data Am ddim yn bennaf Cynnal ar raddfa petabyte; mynediad brodorol i'r cwmwl; gwylio costau allfa
Setiau Data Kaggle Ymarferwyr Am ddim Rhannu hawdd, sgriptiau, cystadlaethau; mae signalau cymunedol yn helpu i hidlo sŵn
Setiau Data Cyhoeddus Google Cloud Dadansoddwyr, timau Am ddim + cwmwl Wedi'i gynnal ger cyfrifiadura; integreiddio BigQuery; gofalus gyda bilio
Pyrth academaidd, labordai Arbenigwyr niche Yn amrywio Arbenigol iawn; weithiau heb ei ddogfennu'n ddigonol - yn dal i fod yn werth yr helfa

(Os yw cell yn edrych yn siaradus, mae hynny'n fwriadol.)


Adeiladu eich un cyntaf - pecyn cychwyn ymarferol 🛠️

Rydych chi eisiau symud o “beth yw set ddata AI” i “Gwneuthum un, mae'n gweithio.” Rhowch gynnig ar y llwybr lleiaf hwn:

  1. Ysgrifennwch y penderfyniad a'r metrig - e.e., lleihau llwybrau anghywir cymorth sy'n dod i mewn trwy ragweld y tîm cywir. Metrig: macro-F1.

  2. Rhestrwch 5 enghraifft gadarnhaol a 5 enghraifft negyddol - samplwch docynnau go iawn; peidiwch â ffugio.

  3. Drafftiwch ganllaw label - un dudalen; rheolau cynnwys/gwahardd penodol.

  4. Casglwch sampl fach, go iawn - ychydig gannoedd o docynnau ar draws categorïau; tynnwch unrhyw wybodaeth bersonol bersonol nad oes ei hangen arnoch.

  5. Rhannu gyda gwiriadau gollyngiadau - cadwch bob neges gan yr un cwsmer mewn un rhaniad; defnyddiwch groes-ddilysu i amcangyfrif amrywiant [5].

  6. Anodi gyda SA - dau anodydd ar is-set; datrys anghytundebau; diweddaru'r canllaw.

  7. Hyfforddwch waelodlin syml - logisteg yn gyntaf (e.e., modelau llinol neu drawsnewidyddion cryno). Y pwynt yw profi'r data, nid ennill medalau.

  8. Adolygu gwallau - ble mae'n methu a pham; diweddaru'r set ddata, nid y model yn unig.

  9. Dogfen - taflen ddata fach: ffynhonnell, dolen canllaw label, rhaniadau, terfynau hysbys, trwydded [1].

  10. Cynlluniwch adnewyddu - categorïau newydd, slang newydd, parthau newydd yn cyrraedd; trefnwch ddiweddariadau bach, mynych [3].

Byddwch chi'n dysgu mwy o'r ddolen hon nag o fil o gymeriadau poeth. Hefyd, cadwch gopïau wrth gefn. Plîs.


Peryglon cyffredin sy'n dod i'r amlwg ar dimau 🪤

  • Gollyngiad data - mae'r ateb yn llithro i'r nodweddion (e.e., defnyddio meysydd ôl-ddatrys i ragweld canlyniadau). Yn teimlo fel twyllo oherwydd ei fod.

  • Amrywiaeth bas - mae un ddaearyddiaeth neu ddyfais yn esgus bod yn fyd-eang. Bydd profion yn datgelu tro yn y plot.

  • Drifft label - mae meini prawf yn newid dros amser ond nid yw'r canllaw label. Dogfennwch a fersiwnwch eich ontoleg.

  • Amcanion heb eu nodi'n ddigonol - os na allwch ddiffinio rhagfynegiad gwael, ni fydd eich data chwaith.

  • Trwyddedau blêr - nid strategaeth yw crafu nawr, ymddiheuro yn ddiweddarach.

  • Gor-ychwanegu - data synthetig sy'n dysgu arteffactau afrealistig, fel hyfforddi cogydd ar ffrwythau plastig.


Cwestiynau Cyffredin Cyflym am yr ymadrodd ei hun ❓

  • Ai dim ond diffiniad yw “Beth yw set ddata AI?”? Yn bennaf, ond mae hefyd yn arwydd eich bod chi'n poeni am y darnau diflas sy'n gwneud modelau'n ddibynadwy.

  • Oes angen labeli arnaf bob amser? Na. Yn aml, mae gosodiadau heb oruchwyliaeth, hunan-oruchwyliaeth, ac RL yn hepgor labeli penodol, ond mae curadu yn dal i fod yn bwysig.

  • A allaf ddefnyddio data cyhoeddus ar gyfer unrhyw beth? Na. Parchwch drwyddedau, telerau platfform, a rhwymedigaethau preifatrwydd [4].

  • Mwy neu well? Y ddau, yn ddelfrydol. Os oes rhaid i chi ddewis, dewiswch well yn gyntaf.


Sylwadau Terfynol - Yr hyn y gallwch chi ei sgrinlunio 📌

Os bydd rhywun yn gofyn i chi beth yw set ddata AI , dywedwch: mae'n gasgliad wedi'i guradu a'i ddogfennu o enghreifftiau sy'n addysgu ac yn profi model, wedi'i lapio mewn llywodraethu fel y gall pobl ymddiried yn y canlyniadau. Mae'r setiau data gorau yn gynrychioliadol, wedi'u labelu'n dda, yn lân yn gyfreithiol, ac yn cael eu cynnal yn barhaus. Y gweddill yw manylion - manylion pwysig - am strwythur, holltiadau, a'r holl reiliau gwarchod bach hynny sy'n atal modelau rhag crwydro i draffig. Weithiau mae'r broses yn teimlo fel garddio gyda thaenlenni; weithiau fel bugeilio picseli. Beth bynnag, buddsoddwch yn y data, a bydd eich modelau'n ymddwyn yn llai rhyfedd. 🌱🤖


Cyfeiriadau

[1] Taflenni Data ar gyfer Setiau Data - Gebru et al., arXiv. Dolen
[2] Cardiau Model ar gyfer Adrodd Modelau - Mitchell et al., arXiv. Dolen
[3] Fframwaith Rheoli Risg Deallusrwydd Artiffisial NIST (AI RMF 1.0) . Dolen
[4] Canllawiau ac adnoddau GDPR y DU - Swyddfa'r Comisiynydd Gwybodaeth (ICO). Dolen
[5] Croes-ddilysu: gwerthuso perfformiad amcangyfrifwr - Canllaw Defnyddiwr scikit-learn. Dolen


Dewch o hyd i'r AI Diweddaraf yn y Siop Swyddogol ar gyfer Cynorthwywyr AI

Amdanom Ni

Yn ôl i'r blog