Læringspsykologi: Operant betinging

Prinsippene bak operant betinging

I operant betinging er den kritiske relasjonen mellom atferd og konsekvens: hvilken handling fører til hva, og hvordan endrer konsekvensene denne handlingen? Operant betinging er læring ved at handlinger får bestemte konsekvenser, noe som så endrer sannsynligheten for slike handlinger i fremtiden. Pionerene innenfor operant betinging er Thorndike og B.F.Skinner.

De banebrytende studiene ble gjennomført av Thorndike (1898) med katter i labyrinter, læring via prøving og tilfeldig suksess. Thorndikes effektlov («law of effect») oppsummerer hans fortolkning av denne formen for læring. Ifølge Thorndike er operant betinging en blind prosess, hvor responser avgis mer eller mindre tilfeldig. De responsene som fører til behagelige konsekvenser, knyttes sterkere til situasjonen; mens de responsene som fører til ubehagelige konsekvenser, fører til at forbindelsen mellom situasjonen og responsen svekkes. Thorndike nedtonet senere den effekten ubehagelige konsekvenser har for læring.

B.F.Skinner innførte begrepet operant betinging («operant» viser til at responen «opererer» på omgivelsene). Skinner fremhevet at operant betinging bør forklares ved de enkleste mulige prinsipper. Etter påvirkning av Skinner har mye av forskningen innenfor dette området bestått i å beskrive relasjoner mellom atferd og atferdens konsekvenser. Som Thorndike vektla Skinner at belønnede konsekvenser har størst betydning for læring; ubehagelige konsekvenser har ifølge Skinner liten eller ingen betydning. Dette har vist seg å være en feilaktig antakelse. Forskning viste tvert om at ubehagelige konsekvenser kan være svært virksomme i læring.

Operant atferd kan følges av ulike typer konsekvenser: positiv- og negativ forsterkning, positiv- og negativ straff, responsekostnad og avskaffelse.

Forsterkning har vist seg som et kraftig prinsipp for å forstå endringer i atferd, både dyrs og menneskers. Sentralt i forsterknings prinsippet er at det beskriver funksjonelle relasjoner mellom atferd og typiske konsekvenser. Dette betyr at forståelse av en handling kan baseres på en analyse av faktiske kontrollforhold for atferden. Forsterkning innebærer per definisjon at en respons øker i sannsynlighet (frekvens) som følge av de konsekvensene den har. Dette kan skje på to måter: vi kan tilføre noe i situasjonen når responsen inntreffer, positiv forsterkning (gi en godbit) eller vi kan fjerne noe fra situasjonen når responsen inntreffer, negativ forsterkning (strupehalsbånd, ubehaget fjernes når den ikke trekker).

Hvis en hund kommer på innkalling, og får en pølse (positiv forsterkning, du legger til noe) , lærer den at konsekvensen av å komme på kommando var god, derfor vil det bli høyere sannsynlighet at denne handlingen vil skje igjen i framtiden. Slike konsekvenser kalles forsterkende stimuli, og prosessen kalles forsterkning. Vi kan skille mellom primær- og sekundær forsterkere. Primær forsterkere er biologisk viktige stimuli som fungerer som forsterkere i seg selv, så som mat. Sekundærforsterkere er stimuli som fungerer som forsterkere fordi de er blitt assosiert med primærforsterkeren. (feks. Klikkeren).

Hvis hundeiere har problemer med masete/pipete hunder, tilsier læringsprinsippet at man må undersøke hvilke konsekvenser masingen hos hunden typisk har. Hvis hunden systematisk (eller sporadisk) får oppmerksomhet når det opptrer masete, men kanskje i mindre grad når det ikke opptrer masete, kan dette uheldige interaksjonsmønsteret forklare hvorfor masingen blir utviklet og opprettholdt. Prinsippet om forsterkning kan i slike tilfeller også anvise hvordan man går fram for å endre et slikt uheldig interaksjonsmønster, feks ved at eierne i større grad viser hunden oppmerksomhet når masingen ikke vises, og mindre oppmerksomhet når hunden maser.

Et av de viktigste funnene innenfor operant betinging er at ekstinksjon (utslokning av en betinget respons) foregår langsommere etter innlæring med sporadisk/intermitterende forsterkning (av og til) enn når innlæringen har foregått med kontinuerlig forsterkning (hver gang). Dette prinsippet har stor betydning både teoretisk og praktisk. Sporadisk belønning av en respons fører til bedre (ikke raskere, men sterkere) læring; konsekvent belønning av en respons fører til raskere læring, men den er også svakere.

Det motsatte av forsterkning er straff. Straff innebærer at noe som inntreffer som konsekvens av en respons, reduserer sannsynligheten for eller frekvensen av denne responsen. Straff kan være aversive (smertefulle) stimuli, men dette er ikke alltid tilfellet. Enhver stimuli som inntreffer etter at en respons har inntruffet og som reduserer sannsynligheten for denne responsen, vil kalles for en straffer i denne situasjonen. Undermining er et eksempel på det, et barn leker med fargepenner og blir belønnet for dette; lek med fargepennene avtar senere. Dette er til tross for at barnet ble «belønnet» for hva de gjorde, et eksempel på straff! Straff kan være positiv og negativ. Positiv straff er når man tillegger noe for å minke atferden. Feks når man bruker båndkorreksjon. Negativ straff er når man fjerner noe for å få bort atferden. For eksempel hvis hunden er opphisset og hyler når du kommer hjem, fjerner du muligheten for å hilse, du snur ryggen til, men når hunden da gjør ønsket atferd hilser du på hunden. Dette fører til at sannsynligheten for atferden (opphisselse) minker. Det er viktig å tenke på at ordet positiv betyr ikke det samme innenfor læringspsykologien som det gjør i det daglige. Innenfor læringspsykologien kan en positiv treningsmetode feks være bruk av strømhalsbånd. Positiv betyr kun det at du tilfører noe, ikke at det er noe positivt som du blir glad for.

Shaping/forming er en annen operant fungerende metode som har kommet mer og mer på «moten» innenfor hundesporter. Forming foreligger hvis konsekvensen av en respons endrer (former) atferden fra noe som kan ligne en ønsket respons, til krevet respons ved at kravet til forsterkningen endrer gradvis. Det er dette prinsippet klikkertrening går ut fra. Under første treningsøkt er kriteriet at hunden skal tilfeldig komme borti en post-it-lapp, belønner, gjentar dette noen ganger. Neste gang er kriteriet at hunden bevisst skal berøre post-it-lappen med labben, når hunden gjør det, belønnes den. Slik fortsetter man. Dette brukes også innenfor barneskolen, et barn lærer å skrive, etterhvert som tiden går, vil bare mer og ordentlige bokstaver gis ros for.

Operant betinging brukes mye i dagens barne- og hundeoppdragelse. Prinsippet om positiv forsterkning (mat, leker, kos), shaping og fokus på frivillig atferd er det de fleste, blant annet meg selv bruker. Men jeg bruker og en del negativ straff (ikke misforstå), men det å fjerne oppmerksomheten fra en masete hund, ikke kose med en hund som hopper, belønne med kos når den ikke hopper, ønsket handling. Min filosofi er at man skal kutte ut all bruk av ubehag, og fokusere på de positive atferdene, men man skal kunne si nei også, men da i hverdagslige situasjoner, ikke i trening. Gjør hunden feil, overse det, prøv på nytt, kanskje setter du for vanskelige kriterier for hunden din?