Samstag, 27. September 2014

Klickertraining: Klick und ... Immer belohnen?

Zafira weiß, wie unterschiedlich Belohnungen sein können.
Als Klickertrainer saugt man es quasi mit der Muttermilch auf. Auf jeden Klick folgt immer ein primärer Verstärker. So habe ich es gelernt, so gebe ich es in meinen Kursen weiter. Aber man muss auch seine festen Überzeugungen regelmäßig hinterfragen. Stimmt das denn überhaupt, dass man immer den Klick mit einer Bestärkung/Belohnung verknüpfen soll?

Der Hintergrund, dass man das so macht, liegt in den Eigenschaften der klassischen Konditionierung. Ein (ursprünglich) neutraler Reiz wird mit einem zeitlich darauf folgenden angenehmen Reiz (der Belohnung) verknüpft und erhält so eine Stellvertreterfunktion für die eigentliche Belohnung. Wird der Klick mit vielen verschiedenen Belohnungen verknüpft, generalisiert sich der Klick in dieser Funktion und wird unabhängig von einer bestimmten Bedürfnislage des Hundes. Dann wirkt der Klick auch bei einem nicht besonders hungrigen Hund, dem mehr der Sinn nach Spielen oder Laufen steht.

Auf den Beipackzetteln der ersten Klicker, die es vor Jahren zu kaufen gab, stand der Hinweis, man könne mit der Zeit die Belohnungen abbauen und es würde ausreichen, wenn man nur noch klickt. Das funktioniert so allerdings nicht, weil mit der Zeit der Klick-Ton seine Bedeutung verliert, etwas Gutes anzukündigen. Eine Zeit lang reagiert der Hund natürlich noch auf den Klick, aber die Reaktion wird schwächer und verzögert sich immer mehr. Darum lautet also die Regel: Klick UND Belohnen! Was man stattdessen macht, ist die Kriterien anzuheben. Es wird eben nicht jedes mal geklickt, sondern nur für die besseren Versuche.

Bob Bailey
Aber bereits wenn man Bob Bailey zuhört, lernt man, dass diese Faustregel eben genau das ist: Nur eine Faustregel. Bob Bailey wird nicht müde zu betonen, dass im Tiertraining wir auf den Schultern Pawlows sitzen und der primäre Verstärker eben immer noch die primäre Quelle der Verhaltensverstärkung ist. Trainiert man sehr komplexe Verhaltensweisen, bei denen es auf ein hohes Maß von Exaktheit ankommt, so empfiehlt Bailey bei einem Fehler, wenn man fälschlich klickt, nicht den primären Verstärker zu geben, weil es den Fehler schlimmer machen kann.

Aus eigenem Erleben weiß ich, dass es Situationen gibt, in denen ein einziger Fehlklick einen Trainingsaufbau um einige Zeit zurückwerfen kann. Womit einer anderen weit verbreiteten Faustregel des Klickertrainings widersprochen werden kann, nämlich der, dass das Klickertraining völlig fehlertolerant sei. Das ist es nur im Aufbau und bei hinreichend unklar definiertem Zielverhalten. Je präziser ein bestimmtes Verhalten sein soll, desto wichtiger ist exaktes Markieren, des richtigen Verhaltens. Mit den Worten Baileys: "You get, what you click!", man kriegt, was man klickt und wenn man schlecht klickt, kriegt man schlechtes bzw. unerwünschtes Verhalten.

Die wissenschaftliche Theorie hinter der operanten und klassischen Konditionierung hat nun einige Jahre auf dem Buckel. Ihr Ansatz, das Tier lediglich als black-box zu betrachten und nur Ein- und Ausgabe zu messen, war einmal sehr wichtig, um das "vermenscheln" des Tieres zu verhindern. Es gab keine adäquate Methode "in die Köpfe" der Tiere zu schauen. Das hat sich in den letzten Jahrzehnten geändert. Die Neurowissenschaften gestatten es mittlerweile einen anderen Blick auf das emotionale Geschehen beim Training zu werfen und man hat wissenschaftlich verstehen gelernt, was Praktiker ohnehin wussten, dass es im Tiertraining durchaus auch auf mehr ankommt, als nur die Rate der Belohnungen.

Einer der führenden Forscher auf diesem Gebiet war der inzwischen emeritierte Jaak Panksepp. Im gelang es verschiedene Basisemotionen zu identifizieren, die alle Tiere teilen: Suche, Furcht, Wut und Panik. Insbesondere die "Suche" ist eine Eigenschaft von Lebewesen, die für das Training interessant ist. Sie lässt das Tier nach primären Verstärkern suchen. Die Belohnung wird aktiv angestrebt und je stärker das Tier bereit und aktiv ist, desto besser kann man mit dem Tier trainieren. Solche Tiere sind motiviert zu trainieren, sie wollen trainieren und beteiligen sich mit Begeisterung. Solche motivierten Tiere darf man auch gar nicht zu viel klicken. Das wäre, als würde man sie ständig auf Kindergartenniveau belohnen, obwohl sie eigentlich schon auf dem Weg zum Abitur oder gar Universitätsabschluss sind. Für Pipifax will man selbst doch auch nicht gelobt werden, oder?

Und damit haben wir noch einen Punkt gefunden, bei dem es eben auch egal sein kann, ob man tatsächlich nach dem Klick belohnt. Wenn der Hund so hoch motiviert ist und im "Suchmodus" trainiert, dann reicht vielleicht der Klick und weiterarbeiten und -suchen zu dürfen ist die größere Belohnung, als irgendein doofer Keks. Dessen sollte man sich als Trainer bewusst sein und dem Hund nicht unbedingt eine Belohnung aufzwingen. Letztlich entscheidet immer der Hund, was er als Belohnung empfindet und nicht, was man als Mensch meint, was ihn belohnt.

Für die, die trotzdem Faustregeln haben möchten und tatsächlich ist an Faustregeln ja nichts Schlimmes, wenn man sie nicht für der Weisheit letzter Schluss hält, dann kann man sich folgende Regeln überlegen:
  • Klicke und Belohne immer, wenn Dein Hund alles richtig gemacht hat und er eine Belohnung will.
  • Erhöhe lieber die Kriterien, als ständig das das selbe schon gekonnte Verhalten zu markieren.
  • Achte auf Deinen Hund: Will er ein Leckerchen? Will er spielen? Will er weiterarbeiten?
Hier noch ein Zitat aus einem Artikel von Patricia McConnell, dessen Lektüre der Anlass für diesen Post war:

Experimental research suggests that it is “seeking” rather than “liking” that best motivates an individual to learn. For example, Gadbois mentioned one of Panksepp’s studies in which cats were always given a reward when they touched one object, but only occasionally when they touched a second object. Guess which object the cats touched most? You got it, the second one. That is why Gadbois argues that clicker trainers should not give a treat every time they click. This all makes great sense to me until I think of chocolate, which I would much rather eat than anticipate eating, thank you very much.

Keine Kommentare:

Kommentar veröffentlichen

Obedience PO 2022: Positionen aus der Bewegung innerhalb der Freifolge

Einleitung Letztens hatte ich mich schon mal mit der neuen Übung "Positionen aus der Bewegung" (PadB) der Klasse 3 beschäftigt. ...