Sut mae cyn-brosesu AI yn gwella modelau dysgu peirianyddol?

Mae prosesu ymlaen llaw deallusrwydd artiffisial yn gwella modelau dysgu peirianyddol trwy drawsnewid data crai yn nodweddion cyson, parod ar gyfer modelau. Mae hyn yn helpu i wella sefydlogrwydd dysgu, yn lleihau sŵn, ac yn lleihau'r risg o fethiannau tawel, gan sicrhau bod modelau'n perfformio'n ddibynadwy mewn amgylcheddau hyfforddi a chynhyrchu.

Pa gamau sy'n rhan o'r broses ragbrosesu AI?

Mae prosesu ymlaen llaw AI fel arfer yn cynnwys glanhau a dilysu data, amgodio newidynnau categoraidd, graddio data rhifol, tocio testun, a chymhwyso trawsffurfiadau delwedd. Mae pob cam yn hanfodol i sicrhau y gall y model ddysgu'n effeithiol o'r data mewnbwn.

Pam mae cysondeb yn bwysig mewn cyn-brosesu AI?

Mae cysondeb mewn prosesu ymlaen llaw AI yn hanfodol i atal anghydweddiadau rhwng mewnbynnau data hyfforddi a chynhyrchu. Os yw'r camau prosesu ymlaen llaw yn wahanol, gall y model berfformio'n dda yn ystod y dilysu ond methu'n dawel mewn senario byd go iawn, gan arwain at ganlyniadau annibynadwy.

Beth yw gollyngiad data yng nghyd-destun cyn-brosesu AI?

Mae gollyngiad data yn digwydd pan fydd gwybodaeth o setiau data gwerthuso neu brofi yn dylanwadu'n anfwriadol ar y broses hyfforddi. Er mwyn osgoi hyn, dim ond ar y data hyfforddi y dylid ffitio'r holl gamau cyn-brosesu sy'n dysgu paramedrau, gan sicrhau bod gwerthuso'r model yn adlewyrchu perfformiad gwirioneddol.

Sut alla i sicrhau bod fy biblinell ragbrosesu AI yn atgynhyrchadwy?

Er mwyn sicrhau atgynhyrchadwyedd yn eich piblinell cyn-brosesu AI, cynnaliwch yr un mapiau mewnbwn-allbwn, gosodwch arteffactau cyn-brosesu fel graddwyr ac amgodwyr ar y data hyfforddi yn unig, a chadwch yr arteffactau hyn i'w defnyddio yn ystod casgliad model.

Beth ddylwn i ei fonitro yn fy rhagbrosesu AI i atal problemau perfformiad model?

Mae'n bwysig monitro am ddrifft a gogwydd yn eich data dros amser. Mae hyn yn cynnwys gwirio am newidiadau mewn dosbarthiadau nodweddion a sicrhau bod y data cynhyrchu yn parhau i fod yn gyson â'r data hyfforddi. Gall canfod problemau o'r fath yn gynnar helpu i gynnal perfformiad model.

Allwch chi roi enghreifftiau o gamgymeriadau cyn-brosesu cyffredin i'w hosgoi?

Mae camgymeriadau cyn-brosesu cyffredin yn cynnwys gosod camau cyn-brosesu ar y set ddata gyfan, gan arwain at ollyngiadau data, mapio categori anghyson rhwng hyfforddi a chasglu, a gadael trawsffurfiadau ar hap yn weithredol yn ystod y gwerthusiad, a all gamliwio metrigau perfformiad.

Beth yw Cyn-brosesu AI? [Fideo a Chwis]

Yr ateb byr: Mae cyn-brosesu AI yn set o gamau ailadroddadwy sy'n troi data crai, amrywiant uchel yn fewnbynnau model cyson, gan gynnwys glanhau, amgodio, graddio, tocio, a thrawsnewid delweddau. Mae'n bwysig oherwydd os yw mewnbynnau hyfforddi a mewnbynnau cynhyrchu yn wahanol, gall modelau fethu'n dawel. Os yw cam yn "dysgu" paramedrau, ffitio ef ar ddata hyfforddi yn unig i osgoi gollyngiadau.

Mae prosesu AI ymlaen llaw yn bopeth rydych chi'n ei wneud i ddata crai cyn (ac weithiau yn ystod) hyfforddiant neu gasgliad fel y gall model ddysgu ohono mewn gwirionedd. Nid dim ond "glanhau". Mae'n glanhau, siapio, graddio, amgodio, cynyddu a phecynnu data i gynrychiolaeth gyson na fydd yn baglu'ch model yn dawel yn ddiweddarach. [1]

Prif bethau i'w cymryd:

Diffiniad: Mae cyn-brosesu yn trosi tablau, testun, delweddau a logiau crai yn nodweddion sy'n barod ar gyfer modelau.

Cysondeb: Defnyddiwch yr un trawsffurfiadau yn ystod hyfforddiant a chasgliadau i atal methiannau cydweddu.

Gollyngiad: Ffitiwch raddfawyr, amgodwyr a thocynnau ar ddata hyfforddi yn unig.

Atgynhyrchadwyedd: Adeiladu piblinellau gydag ystadegau y gellir eu harchwilio, nid dilyniannau celloedd llyfr nodiadau ad hoc.

Monitro cynhyrchu: Tracio gogwydd a drifft fel nad yw mewnbynnau'n erydu perfformiad yn raddol.

Erthyglau y gallech fod eisiau eu darllen ar ôl yr un hon:

🔗 Sut i brofi modelau AI ar gyfer perfformiad yn y byd go iawn
Dulliau ymarferol o werthuso cywirdeb, gwydnwch a rhagfarn yn gyflym.

🔗 A yw testun-i-leferydd yn AI a sut mae'n gweithio
Yn egluro hanfodion TTS, defnyddiau allweddol, a chyfyngiadau cyffredin heddiw.

🔗 A all AI ddarllen llawysgrifen gyriadol yn gywir heddiw
Yn ymdrin â heriau adnabod, yr offer gorau, ac awgrymiadau cywirdeb.

🔗 Pa mor gywir yw deallusrwydd artiffisial ar draws tasgau cyffredin
Yn dadansoddi ffactorau cywirdeb, meincnodau, a dibynadwyedd yn y byd go iawn.

Rhagbrosesu AI mewn iaith glir (a'r hyn nad yw) 🤝

rhagbrosesu AI yn drawsnewid mewnbynnau crai (tablau, testun, delweddau, logiau) yn nodweddion sy'n barod ar gyfer modelau. Os yw data crai yn garej flêr, mae rhagbrosesu yn golygu labelu'r blychau, taflu sothach wedi torri, a phentyrru pethau fel y gallwch chi gerdded drwyddynt heb anaf.

Nid y model ei hun ydyw. Dyma'r pethau sy'n gwneud y model yn bosibl:

troi categorïau yn rhifau (un-hot, trefnol, ac ati) [1]
graddio ystodau rhifol mawr yn ystodau synhwyrol (safoni, min-uchaf, ac ati) [1]
tocynnu testun i mewn i IDau mewnbwn (ac fel arfer mwgwd sylw) [3]
newid maint/cnydio delweddau a chymhwyso trawsffurfiadau penderfynol yn erbyn trawsffurfiadau ar hap yn briodol [4]
adeiladu piblinellau ailadroddadwy fel nad yw hyfforddiant a mewnbynnau “bywyd go iawn” yn gwahaniaethu mewn ffyrdd cynnil [2]

Un nodyn ymarferol bach: mae “cyn-brosesu” yn cynnwys beth bynnag sy’n digwydd yn gyson cyn i’r model weld y mewnbwn. Mae rhai timau’n rhannu hyn yn “beirianneg nodweddion” yn erbyn “glanhau data”, ond mewn bywyd go iawn mae’r llinellau hynny’n aneglur.

Pam mae prosesu ymlaen llaw AI yn bwysicach nag y mae pobl yn ei gyfaddef 😬

Mae model yn gyfatebwr patrymau, nid yn ddarllenydd meddyliau. Os yw eich mewnbynnau'n anghyson, mae'r model yn dysgu rheolau anghyson. Nid yw hynny'n athronyddol, mae'n llythrennol boenus.

Mae prosesu ymlaen llaw yn eich helpu i:

Gwella sefydlogrwydd dysgu drwy roi nodweddion mewn cynrychioliadau y gall amcangyfrifwyr eu defnyddio'n ddibynadwy (yn enwedig pan fo graddio/amgodio yn gysylltiedig). [1]
Lleihau sŵn drwy wneud i realiti blêr edrych fel rhywbeth y gall model gyffredinoli ohono (yn lle cofio arteffactau rhyfedd).
Atal dulliau methiant distaw fel gollyngiadau ac anghydweddiadau hyfforddi/gwasanaethu (y math sy'n edrych yn "anhygoel" mewn dilysu ac yna'n cael ei osod mewn cynhyrchu). [2]
Cyflymwch iteriad oherwydd bod trawsnewidiadau ailadroddadwy yn curo sbageti llyfr nodiadau bob dydd o'r wythnos.

Hefyd, dyna lle mae llawer o “berfformiad model” yn dod mewn gwirionedd. Fel… yn syndod o lawer. Weithiau mae'n teimlo'n annheg, ond dyna realiti 🙃

Beth sy'n gwneud piblinell ragbrosesu AI dda ✅

Mae gan “fersiwn dda” o ragbrosesu fel arfer y rhinweddau hyn:

Atgynhyrchadwy: yr un mewnbwn → yr un allbwn (dim hap-drefn dirgel oni bai ei fod yn ychwanegiad bwriadol).
Cysondeb gwasanaethu-trenau: beth bynnag a wnewch ar amser hyfforddi, caiff ei gymhwyso yn yr un ffordd ar amser casglu (yr un paramedrau wedi'u ffitio, yr un mapiau categori, yr un ffurfweddiad tocynydd, ac ati). [2]
Diogelwch rhag gollyngiadau: nid oes dim yn y gwerthusiad/prawf yn dylanwadu ar unrhyw ffit . (Mwy am y trap hwn yn fuan.) [2]
Arsylladwy: gallwch archwilio beth sydd wedi newid (ystadegau nodwedd, diffygion, cyfrif categorïau) felly nid yw dadfygio yn beirianneg sy'n seiliedig ar ddirgryniadau.

Os yw eich cyn-brosesu yn bentwr o gelloedd llyfr nodiadau o'r enw final_v7_really_final_ok… rydych chi'n gwybod sut mae. Mae'n gweithio nes nad yw'n gweithio 😬

Blociau adeiladu craidd rhagbrosesu AI 🧱

Meddyliwch am ragbrosesu fel set o flociau adeiladu rydych chi'n eu cyfuno i mewn i biblinell.

1) Glanhau a dilysu 🧼

Tasgau nodweddiadol:

tynnu dyblygiadau
trin gwerthoedd coll (gollwng, priodoli, neu gynrychioli coll yn benodol)
gorfodi mathau, unedau ac ystodau
canfod mewnbynnau camffurfiedig
safoni fformatau testun (gofod gwyn, rheolau maint a maint, chwilfrydedd Unicode)

Nid yw'r rhan hon yn hudolus, ond mae'n atal camgymeriadau twp iawn. Rwy'n dweud hynny gyda chariad.

2) Amgodio data categoraidd 🔤

Ni all y rhan fwyaf o fodelau ddefnyddio llinynnau crai fel "coch" neu "premium_user".

Dulliau cyffredin:

Amgodio un-poeth (categori → colofnau deuaidd) [1]
Amgodio trefnol (categori → ID cyfanrif) [1]

Nid pa amgodiwr rydych chi'n ei ddewis yw'r peth allweddol - ond bod y mapio'n aros yn gyson ac nad yw'n "newid siâp" rhwng hyfforddi a chasglu. Dyna sut rydych chi'n cael model sy'n edrych yn iawn all-lein ac yn ymddwyn fel pe bai'n cael ei ysbrydion ar-lein. [2]

3) Graddio a normaleiddio nodweddion 📏

Mae graddio yn bwysig pan fydd nodweddion yn byw ar ystodau gwahanol iawn.

Dau glasur:

Safoni: tynnu'r cymedr a'r raddfa i amrywiant uned [1]
Graddio isafswm-uchafswm: graddio pob nodwedd i ystod benodol [1]

Hyd yn oed pan fyddwch chi'n defnyddio modelau sy'n "ymdopi gan mwyaf," mae graddio yn aml yn gwneud piblinellau'n haws i resymu amdanynt - ac yn anoddach eu torri'n ddamweiniol.

4) Peirianneg nodweddion (aka twyllo defnyddiol) 🧪

Dyma lle rydych chi'n gwneud gwaith y model yn haws trwy greu signalau gwell:

cymhareb (cliciau / argraffiadau)
ffenestri rholio (N diwrnod diwethaf)
cyfrifiadau (digwyddiadau fesul defnyddiwr)
trawsffurfiadau log ar gyfer dosraniadau cynffon-drwm

Mae celf yma. Weithiau byddwch chi'n creu nodwedd, yn teimlo'n falch ... ac nid yw'n gwneud dim. Neu'n waeth, mae'n brifo. Mae hynny'n normal. Peidiwch â chael eich cysylltu'n emosiynol â nodweddion - nid ydyn nhw'n eich caru chi'n ôl 😅

5) Rhannu data yn y ffordd gywir ✂️

Mae hyn yn swnio'n amlwg nes nad yw:

holltiadau ar hap ar gyfer data iid
rhaniadau amser-seiliedig ar gyfer cyfresi amser
holltiadau grwpiedig pan fydd endidau'n ailadrodd (defnyddwyr, dyfeisiau, cleifion)

Ac yn hollbwysig: rhannu cyn ffitio prosesu cyn-brosesu sy'n dysgu o ddata. Os yw eich cam prosesu cyn-brosesu yn "dysgu" paramedrau (fel moddau, geirfaoedd, mapiau categori), rhaid iddo eu dysgu o hyfforddiant yn unig. [2]

Rhagbrosesu AI yn ôl math o ddata: tablau, testun, delweddau 🎛️

Mae cyn-brosesu yn newid siâp yn dibynnu ar yr hyn rydych chi'n ei fwydo i'r model.

Data tablaidd (taenlenni, logiau, cronfeydd data) 📊

Camau cyffredin:

strategaeth gwerth coll
amgodio categoraidd [1]
graddio colofnau rhifol [1]
trin allanolion (mae rheolau parth yn curo “clipio ar hap” y rhan fwyaf o’r amser)
nodweddion deilliedig (agregiadau, oedi, ystadegau treigl)

Cyngor ymarferol: diffiniwch grwpiau colofnau yn benodol (rhifol vs. categoraidd vs. dynodwyr). Bydd eich hunan yn y dyfodol yn diolch i chi.

Data testun (NLP) 📝

Mae prosesu testun ymlaen llaw yn aml yn cynnwys:

tocyneiddio yn docynnau/is-eiriau
trosi i IDau mewnbwn
padio/torri
adeiladu masgiau sylw ar gyfer swpio [3]

Rheol fach sy'n arbed poen: ar gyfer gosodiadau sy'n seiliedig ar drawsnewidyddion, dilynwch osodiadau tocynydd disgwyliedig y model a pheidiwch â freestyle oni bai bod gennych reswm. Freestyle yw sut rydych chi'n gorffen gyda "mae'n hyfforddi ond mae'n rhyfedd"

Delweddau (gweledigaeth gyfrifiadurol) 🖼️

Rhagbrosesu nodweddiadol:

newid maint / cnydio i siapiau cyson
trawsffurfiadau penderfynol ar gyfer gwerthuso
trawsffurfiadau ar hap ar gyfer cynyddu hyfforddiant (e.e., cnydio ar hap) [4]

Un manylyn mae pobl yn ei golli: nid dim ond naws yw “trawsnewidiadau ar hap” - maen nhw'n llythrennol yn samplu paramedrau bob tro maen nhw'n cael eu galw. Gwych ar gyfer hyfforddi amrywiaeth, ofnadwy ar gyfer gwerthuso os anghofiwch ddiffodd yr hap-rhagwelediad. [4]

Y fagl y mae pawb yn syrthio iddi: gollyngiad data 🕳️🐍

Gollyngiad yw pan fydd gwybodaeth o ddata gwerthuso yn sleifio i mewn i hyfforddiant - yn aml trwy ragbrosesu. Gall wneud i'ch model edrych yn hudolus yn ystod dilysu, yna'ch siomi yn y byd go iawn.

Patrymau gollyngiadau cyffredin:

graddio gan ddefnyddio ystadegau set ddata lawn (yn lle hyfforddiant yn unig) [2]
adeiladu mapiau categori gan ddefnyddio trên+prawf gyda'i gilydd [2]
unrhyw gam fit() neu fit_transform() sy'n "gweld" y set brawf [2]

Rheol gyffredinol (syml, creulon, effeithiol):

unrhyw beth sydd â ffit fod yn ffit ar hyfforddiant yn unig.
Yna rydych chi'n trawsnewid dilysu/prawf gan ddefnyddio'r trawsnewidydd wedi'i ffitio hwnnw. [2]

Ac os ydych chi eisiau "pa mor ddrwg all fod?" gwiriad perfedd: mae dogfennau scikit-learn eu hunain yn dangos enghraifft o ollyngiad lle mae trefn ragbrosesu anghywir yn cynhyrchu cywirdeb o tua 0.76 ar dargedau ar hap - yna'n gostwng yn ôl i ~0.5 unwaith y bydd y gollyngiad wedi'i drwsio. Dyna pa mor argyhoeddiadol o anghywir y gall gollyngiad edrych. [2]

Cael prosesu ymlaen llaw i gynhyrchu heb anhrefn 🏗️

Mae llawer o fodelau'n methu mewn cynhyrchiad nid oherwydd bod y model yn "ddrwg", ond oherwydd bod realiti'r mewnbwn yn newid - neu oherwydd bod eich piblinell yn newid.

Mae cyn-brosesu sy'n canolbwyntio ar gynhyrchu fel arfer yn cynnwys:

Arteffactau wedi'u cadw (mapiau amgodwr, paramedrau graddfa, ffurfweddiad tocynydd) fel bod casgliad yn defnyddio'r un trawsffurfiadau dysgedig yn union [2]
Contractau mewnbwn llym (colofnau/mathau/ystodau disgwyliedig)
Monitro am sgiw a drifft , oherwydd bydd data cynhyrchu yn crwydro [5]

Os ydych chi eisiau diffiniadau pendant: mae Monitro Model AI Vertex Google yn gwahaniaethu rhwng sgiw gweini hyfforddiant (mae dosbarthiad cynhyrchu yn gwyro oddi wrth hyfforddiant) a drifft casgliad (mae dosbarthiad cynhyrchu yn newid dros amser), ac yn cefnogi monitro ar gyfer nodweddion categoraidd a rhifiadol. [5]

Oherwydd bod syrpreisys yn ddrud. Ac nid y math hwyliog.

Tabl cymharu: offer cyn-brosesu + monitro cyffredin (a phwy maen nhw ar eu cyfer) 🧰

Offeryn / llyfrgell	Gorau ar gyfer	Pris	Pam mae'n gweithio (a rhywfaint o onestrwydd)
rhagbrosesu scikit-learn	Piblinellau ML tablaidd	Am ddim	Amgodwyr solet + graddwyr (OneHotEncoder, StandardScaler, ac ati) ac ymddygiad rhagweladwy [1]
Tocynwyr Wyneb Cofleidio	Paratoi mewnbwn NLP	Am ddim	Yn cynhyrchu IDau mewnbwn + masgiau sylw yn gyson ar draws rhediadau/modelau [3]
trawsnewidiadau torchvision	Trawsnewidiadau gweledigaeth + ehangu	Am ddim	Ffordd lân o gymysgu trawsffurfiadau penderfynol ac ar hap mewn un biblinell [4]
Monitro Model Vertex AI	Canfod drifft/sgwth mewn cynnyrch	Taledig (cwmwl)	Mae gan fonitorau nodwedd gogwydd/drifft ac maent yn rhybuddio pan fydd trothwyon yn cael eu rhagori [5]

(Oes, mae gan y tabl farn o hyd. Ond o leiaf mae'n farn onest 😅)

Rhestr wirio cyn-brosesu ymarferol y gallwch ei defnyddio mewn gwirionedd 📌

Cyn hyfforddi

Diffinio cynllun mewnbwn (mathau, unedau, ystodau a ganiateir)
Archwiliwch werthoedd coll a dyblygiadau
Rhannu data yn y ffordd gywir (ar hap / yn seiliedig ar amser / wedi'i grwpio)
Cyn-brosesu ffitio ar hyfforddiant yn unig (mae fit / fit_transform yn aros ar y trên) [2]
Cadwch arteffactau cyn-brosesu fel y gall casgliad eu hailddefnyddio [2]

Yn ystod hyfforddiant

Defnyddiwch gynnydd ar hap lle bo'n briodol yn unig (fel arfer rhaniad hyfforddi yn unig) [4]
Cadwch ragbrosesu gwerthuso yn benderfynol [4]
Tracio newidiadau cyn-brosesu fel newidiadau model (oherwydd eu bod nhw)

Cyn ei ddefnyddio

Sicrhewch fod y casgliad yn defnyddio'r llwybr cyn-brosesu a'r arteffactau union yr un fath [2]
Gosod monitro drifft/sgwib (mae hyd yn oed gwiriadau dosbarthu nodweddion sylfaenol yn mynd yn bell) [5]

Ymchwiliad manwl: camgymeriadau cyn-brosesu cyffredin (a sut i'w hosgoi) 🧯

Camgymeriad 1: “Byddaf yn normaleiddio popeth yn gyflym” 😵

Os ydych chi'n cyfrifo paramedrau graddio ar y set ddata lawn, rydych chi'n gollwng gwybodaeth werthuso. Ffitiwch ar y trên, trawsnewidiwch y gweddill. [2]

Camgymeriad 2: categorïau'n symud i anhrefn 🧩

Os yw eich mapio categori yn symud rhwng hyfforddi a chasglu, gall eich model gamddarllen y byd yn dawel. Cadwch fapiau wedi'u gosod trwy arteffactau a arbedwyd. [2]

Camgymeriad 3: ychwanegiad ar hap yn sleifio i mewn i'r gwerthusiad 🎲

Mae trawsnewidiadau ar hap yn wych mewn hyfforddiant, ond ni ddylent fod "ymlaen yn gyfrinachol" pan fyddwch chi'n ceisio mesur perfformiad. (Mae ar hap yn golygu ar hap.) [4]

Sylwadau Terfynol 🧠✨

rhagbrosesu deallusrwydd artiffisial yn gelfyddyd ddisgybledig o droi realiti blêr yn fewnbynnau model cyson. Mae'n cwmpasu glanhau, amgodio, graddio, tocio, trawsnewid delweddau, ac - yn bwysicaf oll - piblinellau ac arteffactau ailadroddadwy.

Gwnewch ragbrosesu'n fwriadol, nid yn ddi-hid. [2]
Holltwch yn gyntaf, ffitio trawsffurfiadau ar hyfforddiant yn unig, osgoi gollyngiadau. [2]
Defnyddiwch ragbrosesu sy'n briodol i'r modd (tokenizers ar gyfer testun, transformations ar gyfer delweddau). [3][4]
Monitro sgiw/drifft cynhyrchu fel nad yw eich model yn symud yn araf i nonsens. [5]

Ac os ydych chi byth yn sownd, gofynnwch i chi'ch hun:
“A fyddai'r cam cyn-brosesu hwn yn dal i wneud synnwyr pe bawn i'n ei redeg yfory ar ddata newydd sbon?”
Os mai'r ateb yw “uhh… efallai?”, dyna'ch cliw 😬

Enghraifft o'r byd go iawn: Adeiladu piblinell ragbrosesu sy'n ddiogel rhag gollyngiadau ar gyfer rhagfynegi trosiant

Senario

Dychmygwch dîm SaaS bach yn ceisio rhagweld pa gwsmeriaid sy'n debygol o ganslo yn y 30 diwrnod nesaf. Mae eu data crai yn byw mewn tri lle: allforion biliau, logiau defnydd cynnyrch, a thocynnau cymorth.

Mae'r fersiwn gyntaf o'r model yn edrych yn ardderchog mewn dilysu, ond mae'n perfformio'n wael pan gaiff ei brofi ar gwsmeriaid dros fis newydd. Nid pensaernïaeth y model yw'r broblem. Mae'n brosesu ymlaen llaw.

Graddiodd y tîm nodweddion rhifiadol ar ddamwain gan ddefnyddio'r set ddata lawn, adeiladodd fapiau categori o ddata trên a phrawf gyda'i gilydd, a chynnwys tagiau tocynnau cymorth a ychwanegwyd dim ond ar ôl canslo. Gollyngiad clasurol. Poenus, ond gellir ei drwsio. [2]

Beth sydd ei angen ar y biblinell

Byddai trefniant ymarferol yn cynnwys:

Cynllun mewnbwn sefydlog: customer_id, plan_type, account_age_days, logins_30d, tickets_30d, last_payment_status, region
Rhaniad yn seiliedig ar amser, fel hyfforddiant rhwng Ionawr a Medi a phrofi ym mis Hydref
Graddio rhifiadol wedi'i ffitio ar y rhaniad hyfforddi yn unig
Amgodwyr categorig wedi'u gosod ar y rhaniad hyfforddi yn unig
Piblinell cyn-brosesu wedi'i chadw fel bod cynhyrchu'n defnyddio'r un mapiau a gwerthoedd graddfa
Monitro sylfaenol ar gyfer colofnau coll, categorïau anweledig, a newidiadau dosbarthu ar ôl eu defnyddio

Mae'r rheol graidd yn syml: rhannu'n gyntaf, ffitio'r cyn-brosesu yn ail. Dylai unrhyw beth sy'n dysgu o'r data ddysgu o'r cyfnod hyfforddi yn unig. [2]

Cyfarwyddyd enghreifftiol

Defnyddiwch hwn fel y briff gweithio ar gyfer y cam cyn-brosesu:

Adeiladu piblinell ragbrosesu ar gyfer model rhagfynegi cyn-droi gan ddefnyddio data bilio, defnydd a chymorth cwsmeriaid. Rhannwch y data yn ôl amser cyn ffitio unrhyw drawsnewidyddion. Ffitiwch raddfeydd rhifiadol ac amgodyddion categoraidd ar y data hyfforddi yn unig, yna cymhwyswch y trawsnewidiadau ffitio hynny i ddata dilysu a phrofi. Arbedwch yr holl arteffactau rhagbrosesu fel bod y model cynhyrchu yn defnyddio'r un cynllun, mapio categori, a pharamedrau graddio. Nodwch golofnau coll, mathau data annisgwyl, categorïau nas gwelwyd, a sifftiau dosbarthu mawr cyn rhagfynegi.

Sut i'w brofi

Cyn ymddiried yn y model, profwch y biblinell cyn-brosesu gydag ychydig o gofnodion bwriadol lletchwith:

Cwsmer ar fath o gynllun nad oedd yn bresennol yn yr hyfforddiant
Rhes gyda rhanbarth neu statws_taliad_last_payment_ar_golled
Cwsmer gyda defnydd anarferol o uchel, fel 10,000 o fewngofnodiadau mewn 30 diwrnod
Ffeil arddull cynhyrchu gyda cholofnau yn y drefn anghywir
Set brawf ar gyfer y mis nesaf na chafodd ei defnyddio erioed yn ystod y ffitio

Yna gwiriwch dri pheth:

A yw'r biblinell yn rhedeg heb newid trefn y nodweddion?
A yw categorïau anhysbys yn cael eu trin yn gyson?
A yw perfformiad dilysu yn gostwng i lefel fwy credadwy ar ôl i'r gollyngiad gael ei ddileu?

Mae'r pwynt olaf hwnnw'n bwysig. Yn aml, arogl cyn-brosesu yw sgôr dilysu amheus o uchel, nid gwyrth.

Canlyniad

Canlyniad darluniadol, yn seiliedig ar amseru pum rhediad cyn-brosesu sampl cyn ac ar ôl trosi camau llyfr nodiadau yn biblinell wedi'i chadw:

Gostyngodd yr amser cyn-brosesu â llaw o 55 munud fesul adnewyddu set ddata i 8 munud.
Gostyngodd gwallau trefn nodweddion o 3 gwall mewn 5 adnewyddiad prawf i 0 gwall mewn 5 adnewyddiad.
Gostyngodd cywirdeb dilysu o 91% i 74% ar ôl i'r gollyngiad gael ei ddileu, ond gwellodd cywirdeb profion mis newydd o 62% i 71%.
Ychwanegodd y tîm 6 gwiriad awtomataidd: colofnau ar goll, mathau annilys, categorïau anweledig, newid cyfradd null, newid ystod rifiadol, ac anghydweddiad cynllun gweini trên.

Nid yw'r niferoedd hyn yn feincnod cyffredinol. Nhw yw'r math o fesuriadau cyn ac ar ôl syml y gall tîm eu hatgynhyrchu trwy amseru adnewyddiadau, cyfrif rhediadau aflwyddiannus, a chymharu canlyniadau dilysu â mis yn y dyfodol a ohiriwyd.

Beth all fynd o'i le

Y risg fwyaf yw gwneud i'r biblinell edrych yn lân wrth gadw gollyngiadau'n dawel. Er enghraifft, gallai "dyddiau ers yr e-bost rhybudd canslo diwethaf" ymddangos yn werthfawr, ond os anfonir yr e-bost hwnnw ar ôl adolygiad trosiant mewnol yn unig, gallai ollwng gwybodaeth yn y dyfodol.

Trapiau cyffredin eraill:

Ail-osod amgodyddion mewn cynhyrchiad yn lle llwytho mapiau wedi'u cadw
Gadael i gategorïau newydd newid safleoedd nodweddion yn dawel
Profi ar raniad ar hap pan fo'r dasg wirioneddol yn seiliedig ar amser
Gollwng rhesi gyda gwerthoedd ar goll mewn hyfforddiant ond heb eu trin wrth gasgliad
Monitro cywirdeb y model wrth anwybyddu drifft mewnbwn

Tecawê ymarferol

Mae piblinell ragbrosesu dda yn gwneud mwy na gwneud data crai yn daclus. Mae'n amddiffyn y model rhag gwerthusiad gwael, mewnbynnau cynhyrchu toredig, a drifft tawel araf. Ar gyfer model trosiant, mae'r gwahaniaeth rhwng ragbrosesu clyfar a ragbrosesu dibynadwy yn aml yn dibynnu a yw'r un trawsffurfiadau wedi'u ffitio yn cael eu hailddefnyddio bob tro, yn enwedig pan ddaw'r data o fis nad yw'r model erioed wedi'i weld o'r blaen.

Cwestiynau Cyffredin

Beth yw cyn-brosesu AI, mewn termau syml?

Mae rhagbrosesu deallusrwydd artiffisial yn set o gamau ailadroddadwy sy'n troi data crai swnllyd, amrywiant uchel yn fewnbynnau cyson y gall model ddysgu ohonynt. Gall gynnwys glanhau, dilysu, amgodio categorïau, graddio gwerthoedd rhifiadol, tocio testun, a chymhwyso trawsffurfiadau delwedd. Y nod yw sicrhau bod hyfforddiant a chasgliadau cynhyrchu yn gweld yr "un math" o fewnbwn, fel nad yw'r model yn symud i ymddygiad anrhagweladwy yn ddiweddarach.

Pam mae cyn-brosesu AI mor bwysig mewn cynhyrchu?

Mae prosesu ymlaen llaw yn bwysig oherwydd bod modelau'n sensitif i gynrychiolaeth mewnbwn. Os caiff data hyfforddi ei raddio, ei amgodio, ei docyneiddio, neu ei drawsnewid yn wahanol i ddata cynhyrchu, gallwch gael methiannau anghydweddu hyfforddi/gwasanaethu sy'n edrych yn iawn all-lein ond sy'n methu'n dawel ar-lein. Mae piblinellau prosesu ymlaen llaw cryf hefyd yn lleihau sŵn, yn gwella sefydlogrwydd dysgu, ac yn cyflymu iteriad oherwydd nad ydych chi'n datrys sbageti llyfr nodiadau.

Sut ydw i'n osgoi gollyngiadau data wrth ragbrosesu?

Mae rheol syml yn gweithio: rhaid i unrhyw beth sydd â ffitio fod yn ffitio ar ddata hyfforddi yn unig. Mae hynny'n cynnwys graddwyr, amgodwyr, a thocynnau sy'n dysgu paramedrau fel cymedrau, mapiau categori, neu eirfaoedd. Rydych chi'n rhannu yn gyntaf, yn ffitio ar y rhaniad hyfforddi, yna'n trawsnewid dilysu/prawf gan ddefnyddio'r trawsnewidydd ffitio. Gall gollyngiad wneud i ddilysu edrych yn "hudolus" o dda ac yna chwalu mewn defnydd cynhyrchu.

Beth yw'r camau cyn-brosesu mwyaf cyffredin ar gyfer data tablaidd?

Ar gyfer data tablaidd, mae'r biblinell arferol yn cynnwys glanhau a dilysu (mathau, ystodau, gwerthoedd coll), amgodio categorïaidd (un-poeth neu drefnol), a graddio rhifiadol (safoni neu isafswm-uchafswm). Mae llawer o biblinellau yn ychwanegu peirianneg nodweddion sy'n cael ei gyrru gan barth fel cymhareb, ffenestri rholio, neu gyfrifon. Arfer ymarferol yw diffinio grwpiau colofnau'n benodol (rhifol vs categorïaidd vs dynodwyr) fel bod eich trawsffurfiadau'n aros yn gyson.

Sut mae cyn-brosesu yn gweithio ar gyfer modelau testun?

Mae prosesu testun ymlaen llaw fel arfer yn golygu tocio yn docynnau/is-eiriau, eu trosi'n IDau mewnbwn, a thrin padio/torri ar gyfer swpio. Mae llawer o lifau gwaith trawsnewidyddion hefyd yn creu mwgwd sylw ochr yn ochr â'r IDau. Dull cyffredin yw defnyddio ffurfweddiad tocionydd disgwyliedig y model yn hytrach na byrfyfyrio, oherwydd gall gwahaniaethau bach mewn gosodiadau tocionydd arwain at ganlyniadau "mae'n hyfforddi ond mae'n ymddwyn yn anrhagweladwy".

Beth sy'n wahanol am brosesu delweddau ymlaen llaw ar gyfer dysgu peirianyddol?

Mae prosesu delweddau ymlaen llaw fel arfer yn sicrhau siapiau a thrin picseli cyson: newid maint/cnydio, normaleiddio, a rhaniad clir rhwng trawsffurfiadau penderfynol ac ar hap. Ar gyfer gwerthuso, dylai trawsffurfiadau fod yn benderfynol fel bod metrigau'n gymharol. Ar gyfer hyfforddi, gall ehangu ar hap (fel cnydio ar hap) wella cadernid, ond rhaid cwmpasu ar hap yn fwriadol i'r rhaniad hyfforddi, nid ei adael ymlaen ar ddamwain yn ystod y gwerthuso.

Beth sy'n gwneud piblinell ragbrosesu yn "dda" yn hytrach na bregus?

Mae piblinell ragbrosesu AI dda yn atgynhyrchadwy, yn ddiogel rhag gollyngiadau, ac yn arsylwadwy. Mae atgynhyrchadwy yn golygu bod yr un mewnbwn yn cynhyrchu'r un allbwn oni bai bod hap-drefn yn ychwanegiad bwriadol. Mae diogel rhag gollyngiadau yn golygu nad yw camau ffitio byth yn cyffwrdd â dilysu/profi. Mae arsylwadwy yn golygu y gallwch archwilio ystadegau fel diffygion, cyfrifiadau categorïau, a dosraniadau nodweddion felly mae dadfygio yn seiliedig ar dystiolaeth, nid teimlad perfedd. Mae piblinellau'n curo dilyniannau llyfr nodiadau ad hoc bob tro.

Sut ydw i'n cadw hyfforddiant a chyn-brosesu casgliadau yn gyson?

Y gamp yw ailddefnyddio'r un arteffactau dysgedig yn union ar adeg casglu: paramedrau graddfa, mapiau amgodiwr, a chyfluniadau tocynydd. Rydych chi hefyd eisiau contract mewnbwn (colofnau, mathau ac ystodau disgwyliedig) fel na all data cynhyrchu symud yn dawel i siapiau annilys. Nid dim ond "gwneud yr un camau" yw cysondeb - mae'n "gwneud yr un camau gyda'r un paramedrau a mapiau wedi'u ffitio"

Sut alla i fonitro problemau cyn-brosesu fel drifft a gogwydd dros amser?

Hyd yn oed gyda phiblinell gadarn, mae data cynhyrchu yn newid. Dull cyffredin yw monitro newidiadau dosbarthiad nodweddion a rhybuddio am sgiw gweini hyfforddiant (mae cynhyrchiad yn gwyro o hyfforddiant) a drifft casgliad (mae cynhyrchiad yn newid dros amser). Gall monitro fod yn ysgafn (gwiriadau dosbarthiad sylfaenol) neu'n cael ei reoli (fel Monitro Model Vertex AI). Y nod yw dal newidiadau mewnbwn yn gynnar - cyn iddynt erydu perfformiad model yn araf.

Cyfeiriadau

[1] scikit-learn API: sklearn.preprocessing (amgodwyr, graddwyr, normaleiddio)
[2] scikit-learn: Peryglon cyffredin - Gollyngiadau data a sut i'w osgoi
[3] Dogfennau Hugging Face Transformers: Tocynwyr (IDau mewnbwn, masgiau sylw)
[4] Dogfennau PyTorch Torchvision: Trawsnewidiadau (Newid Maint/Normaleiddio + trawsnewidiadau ar hap)
[5] Dogfennau Google Cloud Vertex AI: Trosolwg o Fonitro Modelau (sgwib nodwedd a drifft)

Dewch o hyd i'r AI Diweddaraf yn y Siop Swyddogol ar gyfer Cynorthwywyr AI

Amdanom Ni

Yn ôl i'r blog