Pekiştirme ve Ceza Yoluyla Davranış Değiştirme: Edimsel Koşullanma

Klasik koşullanmada organizma yeni uyaranları tükürük salgısı veya korku gibi doğal, biyolojik tepkilerle ilişkilendirmeyi öğrenir. Organizma yeni bir şey öğrenmez, bunun yerine yeni bir sinyalin varlığında mevcut bir davranışı gerçekleştirmeye başlar. Edimsel koşullanma ise davranışın sonuçlarına bağlı olarak gerçekleşen öğrenmedir ve yeni eylemlerin öğrenilmesini içerebilir. Edimsel koşullanma, bir köpeğin komutla üstüne dönmesinin nedeni olarak ona geçmişte övgüde bulunulmuş olması, bir okul zorbasının sınıf arkadaşlarına tehditlerde bulunmasının nedeni olarak istediğini elde etmesine izin verilmesi ve bir çocuğun iyi notlar almasının nedeni olarak eğer yapmazsa ona ceza verileceği tehdidi yapılması durumlarında meydana gelir. Operant (edimsel) koşullanmada organizma, kendi eylemlerinin sonuçlarından öğrenir.

Pekiştirme ve Ceza Davranışı Nasıl Etkiler? Thorndike ve Skinner'ın Araştırmaları

Psikolog Edward L. Thorndike (1874-1949), edimsel koşullanmayı sistematik olarak inceleyen ilk bilim insanıdır. Thorndike (1898) araştırmasında, kaçmaya çalıştıkları bir "bulmaca kutusuna" yerleştirilen kedileri gözlemlemiştir. İlk başta kediler nasıl kurtulacaklarına dair hiçbir fikirleri olmadan gelişigüzel tırmaladılar, ısırdılar ve vurdular. Ama sonunda ve kazara, kapıyı açan kola bastılar ve ödülleri olan bir balık parçasına ulaştılar. Kedi bir sonraki sefer kutu içinde kısıtlandığında, başarılı kaçışı gerçekleştirmeden önce etkisiz tepkilerden daha azını denedi ve birkaç denemeden sonra kedi neredeyse hemen doğru tepkiyi vermeyi öğrendi.

Kedilerin davranışlarındaki bu değişiklikleri gözlemlemek, Thorndike'ın, belirli bir durumda tipik olarak hoş bir sonuç yaratan tepkilerin benzer bir durumda tekrar ortaya çıkma olasılığının daha yüksek olduğu, buna karşılık tipik olarak hoş olmayan bir sonuç üreten tepkilerin aynı durumda tekrar ortaya çıkma olasılığının daha düşük olduğu ilkesi olan etki yasasını geliştirmesine yol açmıştır (Thorndike, 1911). Etki yasasının özü, başarılı tepkilerin, zevkli oldukları için, deneyimle "damgalanması" ve böylece daha sık ortaya çıkmasıdır. Hoş olmayan deneyimler yaratan başarısız tepkiler "damgalanır" ve daha sonra daha az sıklıkla ortaya çıkar.

Thorndike, kedilerini bir bulmaca kutusuna yerleştirdiğinde, her denemeden sonra önemli kaçış davranışını daha hızlı yapmayı öğrendiklerini buldu. Thorndike, pekiştirmeyi takip eden öğrenmeyi etki yasası açısından tanımlamıştır.

Etkili davranış psikoloğu B. F. Skinner (1904-1990), Thorndike'ın fikirlerini genişleterek edimsel koşullanmayı açıklamak için daha eksiksiz bir dizi ilke geliştirdi. Skinner, öğrenmeyi sistematik olarak incelemek için operant odaları (genellikle Skinner kutuları olarak adlandırılır) olarak bilinen özel olarak tasarlanmış ortamlar yarattı. Skinner kutusu (operant odası), bir kemirgen ya da kuşun sığabileceği kadar büyük olan ve organizmanın yiyecek ya da suyu serbest bırakmak için basabileceği ya da gagalayabileceği bir çubuk ya da anahtar içeren bir yapıdır. Ayrıca hayvanın tepkilerini kaydetmek için bir cihaz da içerir.

Skinner'ın deneylerinin en temeli, Thorndike'ın kedilerle yaptığı araştırmaya oldukça benziyordu. Odaya yerleştirilen bir sıçan, beklenebileceği gibi, kutunun etrafında koşuşturarak, zemini ve duvarları koklayarak ve tırmalayarak tepki verdi. Sonunda fare bir kola rastladı ve bastığında yiyecek topakları serbest kaldı. Bir sonraki denemede farenin kola basması biraz daha kısa sürdü ve sonraki denemelerde kola basma süresi gittikçe kısaldı. Kısa süre sonra fare, ortaya çıkan yiyeceği yiyebilmek için kola hızla basıyordu. Etki yasasının öngördüğü gibi, sıçan yiyecek getiren eylemi tekrarlamayı ve getirmeyen eylemleri durdurmayı öğrenmişti.

Skinner, hayvanların davranışlarını pekiştirme ve ceza yoluyla nasıl değiştirdiklerini ayrıntılı olarak incelemiş ve edimsel öğrenme süreçlerini açıklayan terimler geliştirmiştir (Aşağıdaki tablo "Olumlu ve Olumsuz Pekiştirme ve Ceza Davranışı Nasıl Etkiler?"). Skinner, pekiştireç terimini bir davranışı güçlendiren veya olasılığını artıran herhangi bir olayı ifade etmek için, cezalandırıcı terimini ise bir davranışın olasılığını zayıflatan veya azaltan herhangi bir olayı ifade etmek için kullanmıştır. Pozitif ve negatif terimlerini sırasıyla bir pekiştirecin sunulması ya da kaldırılmasını ifade etmek için kullanmıştır. Bu nedenle pozitif takviye, bir tepkiye yanıt olarak hoş bir şey sunarak bu tepkiyi güçlendirirken, negatif takviye, hoş olmayan bir şeyi azaltarak veya ortadan kaldırarak bir tepkiyi güçlendirir. Örneğin, bir çocuğa ödevini tamamladığı için övgü vermek olumlu pekiştirme anlamına gelirken, baş ağrısını azaltmak için aspirin almak olumsuz pekiştirme anlamına gelir. Her iki durumda da pekiştirme, davranışın gelecekte tekrar ortaya çıkma olasılığını artırır.

Şekil; Skinner Kutusundaki Sıçan

Tablo; Olumlu ve Olumsuz Pekiştirme ve Cezanın Davranışı Nasıl Etkilediği

Edimsel koşullanma terimi	Açıklama	Netice	Örnek
Olumlu pekiştirme	Hoş bir uyarıcı ekleyin veya artırın	Davranış güçlendirilir	Bir öğrenciye sınavdan A aldıktan sonra ödül vermek
Olumsuz pekiştirme	Hoş olmayan bir uyaranı azaltın veya ortadan kaldırın	Davranış güçlendirilir	Ağrıyı ortadan kaldıran ağrı kesiciler almak, tekrar ağrı kesici alma olasılığınızı artırır
Pozitif ceza	Hoş olmayan bir uyarıcı sunmak veya eklemek	Davranış zayıflar	Sınıfta yaramazlık yapan bir öğrenciye fazladan ödev vermek
Olumsuz ceza	Hoş bir uyaranı azaltın veya kaldırın	Davranış zayıflar	Sokağa çıkma yasağını kaçıran bir gencin bilgisayarının elinden alınması

Olumlu ya da olumsuz pekiştirme, bir davranışın gerçekleşme olasılığını artırarak işe yarar. Öte yandan ceza, bir davranışın gerçekleşme olasılığını zayıflatan veya azaltan herhangi bir olayı ifade eder. Pozitif ceza, tepkinin ardından hoş olmayan bir şey sunarak tepkiyi zayıflatırken, negatif ceza hoş bir şeyi azaltarak veya ortadan kaldırarak tepkiyi zayıflatır. Kardeşiyle kavga ettikten sonra ceza alan (olumlu ceza) veya zayıf not aldıktan sonra teneffüse çıkma fırsatını kaybeden (olumsuz ceza) bir çocuğun bu davranışları tekrarlama olasılığı daha düşüktür.

Pekiştirme (davranışı artıran) ve ceza (davranışı azaltan) arasındaki ayrım genellikle açık olsa da, bazı durumlarda bir pekiştiricinin olumlu mu yoksa olumsuz mu olduğunu belirlemek zordur. Sıcak bir günde serin bir esinti olumlu bir pekiştirici (çünkü serin hava getirir) veya olumsuz bir pekiştirici (çünkü sıcak havayı uzaklaştırır) olarak görülebilir. Diğer durumlarda, pekiştirme hem olumlu hem de olumsuz olabilir. Kişi hem keyif verdiği için (olumlu pekiştirme) hem de nikotin arzusunu giderdiği için (olumsuz pekiştirme) sigara içebilir.

Ayrıca, pekiştirme ve cezanın basitçe birbirinin zıttı olmadığına dikkat etmek de önemlidir. Davranış değiştirmede olumlu pekiştireç kullanımı neredeyse her zaman ceza kullanmaktan daha etkilidir. Bunun nedeni, olumlu pekiştirmenin kişinin veya hayvanın kendini daha iyi hissetmesini sağlaması ve pekiştirmeyi sağlayan kişiyle olumlu bir ilişki kurulmasına yardımcı olmasıdır. Günlük yaşamda etkili olan olumlu pekiştirme türleri arasında sözlü övgü veya onay, statü veya prestij verilmesi ve doğrudan mali ödeme yer alır. Öte yandan, cezanın davranışta yalnızca geçici değişiklikler yaratması daha olasıdır çünkü zorlamaya dayanır ve tipik olarak takviyeyi sağlayan kişiyle olumsuz ve düşmanca bir ilişki yaratır. Cezayı veren kişi durumu terk ettiğinde, istenmeyen davranışın geri dönmesi muhtemeldir.

Edimsel Koşullandırma Yoluyla Karmaşık Davranışlar Oluşturma

Belki de bir hayvanın -köpek, at veya yunus olabilir- oldukça şaşırtıcı şeyler yaptığı bir film izlediğinizi veya bir gösteride bulunduğunuzu hatırlıyorsunuzdur. Eğitmen bir komut verdi ve yunus havuzun dibine doğru yüzdü, burnuna bir halka aldı, havadaki bir çemberin içinden sudan atladı, tekrar havuzun dibine daldı, bir halka daha aldı ve sonra her iki halkayı da havuzun kenarındaki eğitmene götürdü. Hayvan numarayı yapmak üzere eğitildi ve onu eğitmek için edimsel koşullanma ilkeleri kullanıldı. Ancak bu karmaşık davranışlar, şimdiye kadar ele aldığımız basit uyaran-tepki ilişkilerinden çok farklıdır. Bunlar gibi karmaşık davranışlar yaratmak için pekiştirme nasıl kullanılabilir?

Edimsel öğrenmenin kullanımını genişletmenin bir yolu, takviyenin uygulandığı programı değiştirmektir. Bu noktaya kadar sadece, istenen tepkinin her ortaya çıktığında pekiştirildiği sürekli bir pekiştirme programından bahsettik; örneğin köpek her yuvarlandığında bir bisküvi alır. Sürekli pekiştirme nispeten hızlı öğrenme ile sonuçlanır, ancak pekiştirici ortadan kalktığında istenen davranışın hızlı bir şekilde sönmesi de söz konusudur. Sorun şu ki organizma her davranıştan sonra takviye almaya alıştığı için, takviye görünmediğinde yanıt veren kişi hızla vazgeçebilir.

Gerçek dünyadaki pekiştireçlerin çoğu sürekli değildir; kısmi (veya aralıklı) bir pekiştirme programında gerçekleşirler; tepkilerin bazen pekiştirildiği bazen de pekiştirilmediği bir program. Sürekli pekiştirme ile karşılaştırıldığında, kısmi pekiştirme programları daha yavaş ilk öğrenmeye yol açar, ancak aynı zamanda yok olmaya karşı daha fazla direnç sağlarlar. Pekiştireç her davranıştan sonra ortaya çıkmadığı için, öğrenenin ödülün artık gelmeyeceğini belirlemesi daha uzun sürer ve bu nedenle sönme daha yavaştır. Dört tür kısmi takviye programı aşağıdaki tablo "Takviye Programları"nda özetlenmiştir.

Tablo; Takviye Programları

Takviye programı	İzah	Gerçek hayat örneği
Sabit Oranlı	Belirli sayıda tepkiden sonra davranış pekiştirilir	Ürettikleri ürün sayısına göre ücret alan fabrika çalışanları
Değişken oranlı	Davranış ortalama, ancak öngörülemeyen sayıda tepkiden sonra pekiştirilir	Kumar makineleri ve diğer şans oyunlarından elde edilen kazançlar
Sabit aralıklı	Belirli bir süre geçtikten sonra ilk tepki için davranış pekiştirilir	Aylık maaş alan kişiler
Değişken aralıklı	Davranış, ortalama ancak tahmin edilemeyen bir süre geçtikten sonra ilk tepki için pekiştirilir	Mesajlar için sesli postayı kontrol eden kişi

Kısmi pekiştirme programları, pekiştirmenin pekiştirme arasında geçen süreye (aralık) göre mi yoksa organizmanın gerçekleştirdiği tepki sayısına (oran) göre mi sunulduğuna ve pekiştirmenin düzenli (sabit) ya da öngörülemeyen (değişken) bir programa göre gerçekleşip gerçekleşmediğine göre belirlenir. Sabit aralıklı bir programda, belirli bir süre geçtikten sonra yapılan ilk tepki için pekiştirme gerçekleşir. Örneğin, bir dakikalık sabit aralıklı bir programda hayvan, dakika boyunca en az bir kez davranışta bulunduğunu varsayarak her dakika bir takviye alır. Aşağıdaki şekil "Farklı Kısmi Pekiştirme Çizelgeleri Altında Eğitilen Hayvanların Tepki Örüntülerine Örnekler" bölümünde görebileceğiniz gibi, sabit aralıklı çizelgeler altındaki hayvanlar, pekiştirmeden hemen sonra tepkilerini yavaşlatma eğilimindedir, ancak daha sonra bir sonraki pekiştirme zamanı yaklaştıkça davranışı tekrar artırırlar. (Çoğu öğrenci sınavlara aynı şekilde çalışır.) Değişken aralıklı bir çizelgede, pekiştiriciler bir aralık çizelgesinde görünür, ancak zamanlama ortalama aralık etrafında değişir, bu da pekiştiricinin gerçek görünümünü tahmin edilemez hale getirir. E-postanızı kontrol etmek buna bir örnek olabilir: Ortalama olarak, diyelim ki her 30 dakikada bir gelen mesajlarla pekiştirilirsiniz, ancak pekiştirme yalnızca rastgele zamanlarda gerçekleşir. Aralıklı pekiştirme programları yavaş ve sabit tepki oranları üretme eğilimindedir.

Şekil; Farklı Kısmi Pekiştirme Programları Altında Eğitilen Hayvanların Tepki Örüntülerine Örnekler

Sabit oranlı bir programda, bir davranış belirli sayıda tepkiden sonra pekiştirilir. Örneğin, bir fare bir tuşa 20 kez bastıktan sonra davranışı pekiştirilebilir veya bir satış elemanı 10 ürün sattıktan sonra prim alabilir. Yukarıdaki şekil "Farklı Kısmi Pekiştirme Çizelgeleri Altında Eğitilen Hayvanların Tepki Örüntülerine Örnekler" bölümünde görebileceğiniz gibi, organizma sabit pekiştirme çizelgesine uygun olarak hareket etmeyi öğrendiğinde, yüksek bir tepki düzeyine dönmeden önce pekiştirme gerçekleştiğinde yalnızca kısa bir süre duraklayacaktır. Değişken oranlı bir program, belirli ancak ortalama sayıda yanıttan sonra pekiştireç sağlar. Slot makinelerinden veya piyango biletinden para kazanmak, değişken oranlı bir programda gerçekleşen pekiştirme örnekleridir. Örneğin, bir slot makinesi kullanıcının kolu ortalama her 20 kez çekişinde bir kazanç sağlayacak şekilde programlanmış olabilir. Aşağıdaki şekil "Slot Makinesi"nde görebileceğiniz gibi, oran çizelgeleri yüksek tepki oranları üretme eğilimindedir çünkü tepki sayısı arttıkça pekiştirme de artar.

Şekil; Slot Makinesi

Karmaşık davranışlar aynı zamanda, bir organizmanın davranışını nihai istenen davranışa ardışık yaklaşımlar kullanarak istenen sonuca yönlendirme süreci olan şekillendirme yoluyla da yaratılır. Skinner bu prosedürü kutularında geniş ölçüde kullanmıştır. Örneğin, bir fareyi yiyecek almak için bir çubuğa iki kez basması konusunda eğitmek için, önce hayvan çubuğa yaklaştığında yiyecek vermiştir. Daha sonra bu davranış öğrenildiğinde, sadece fare çubuğa dokunduğunda yiyecek vermeye başlayacaktır. Daha ileri şekillendirme, takviyeyi yalnızca sıçan çubuğa bastığında, çubuğa bastığında ve ikinci kez dokunduğunda ve son olarak yalnızca çubuğa iki kez bastığında şekilnde sınırlandırdı. Uzun zaman alabilse de, bu şekilde edimsel koşullanma, yalnızca tamamlandıklarında pekiştirilen davranış zincirleri oluşturabilir.

Benzer uyaranlar arasında doğru ayrım yapmaları halinde hayvanları ödüllendirmek, bilim insanlarının hayvanların öğrenme becerilerini test etmelerine olanak tanır ve hayvanların yapabildikleri ayrımlar bazen oldukça dikkat çekicidir. Güvercinler Charlie Brown ve diğer Peanuts karakterlerinin görüntüleri arasında (Cerella, 1980) ve farklı müzik ve sanat tarzları arasında ayrım yapmak üzere eğitilmiştir (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).

Davranışlar, ikincil pekiştireçler kullanılarak da eğitilebilir. Birincil pekiştireç, organizma tarafından doğal olarak tercih edilen veya zevk alınan yiyecek, su ve acıdan kurtulma gibi uyaranları içerirken, ikincil pekiştireç (bazen koşullu pekiştireç olarak da adlandırılır) klasik koşullanma yoluyla birincil pekiştireçle ilişkilendirilen nötr bir olaydır. İkincil bir pekiştiriciye örnek olarak, bir hayvan eğitmeni tarafından verilen ve zaman içinde birincil pekiştirici olan yiyecekle ilişkilendirilen düdük verilebilir. Günlük ikincil pekiştireçlere örnek olarak para verilebilir. Paraya sahip olmaktan, uyarıcının kendisi için değil, daha ziyade ilişkilendirildiği birincil pekiştiriciler (paranın satın alabileceği şeyler) için zevk alırız.

Önemli Çıkarımlar

-Edward Thorndike etki yasasını geliştirmiştir: belirli bir durumda tipik olarak hoş bir sonuç yaratan tepkilerin benzer bir durumda tekrar ortaya çıkma olasılığı daha yüksekken, tipik olarak hoş olmayan bir sonuç üreten tepkilerin benzer bir durumda tekrar ortaya çıkma olasılığının daha düşük olduğu ilkesi.

-B. F. Skinner, Thorndike’ın fikirlerini genişleterek edimsel koşullanmayı açıklamak için bir dizi ilke geliştirmiştir.

-Olumlu pekiştirme, tepkiden sonra tipik olarak hoş olan bir şey sunarak bir tepkiyi güçlendirirken, olumsuz pekiştirme tipik olarak hoş olmayan bir şeyi azaltarak veya kaldırarak bir tepkiyi güçlendirir.

-Pozitif ceza, tepkiden sonra tipik olarak hoş olmayan bir şey sunarak bir tepkiyi zayıflatırken, negatif ceza tipik olarak hoş olan bir şeyi azaltarak veya kaldırarak bir tepkiyi zayıflatır.

-Pekiştirme kısmi ya da sürekli olabilir. Kısmi pekiştirme programları, pekiştirmenin pekiştirmeler arasında geçen süreye (aralık) göre mi yoksa organizmanın gerçekleştirdiği tepki sayısına (oran) göre mi sunulduğuna ve pekiştirmenin düzenli (sabit) veya öngörülemeyen (değişken) bir programa göre gerçekleşip gerçekleşmediğine göre belirlenir.

-Karmaşık davranışlar, bir organizmanın davranışını istenen sonuca doğru sıradışı yaklaşımlar kullanarak yönlendirme süreci olan ‘şekillendirme’ ile oluşturulabilir.

Alıştırmalar ve Eleştirel Düşünme

1. Şunlardan her birine günlük hayattan bir örnek veriniz: olumlu pekiştirme, olumsuz pekiştirme, olumlu ceza, olumsuz ceza.

2. Bir köpeği, ona attığınız bir frizbiyi yakalaması ve geri getirmesi için eğitirken kullanabileceğiniz pekiştirme tekniklerini düşünün.

3. Güncel televizyon programlarından aşağıdaki videoyu izleyin. Hangi öğrenme prosedürlerinin gösterildiğini belirleyebilir misiniz?
–The Big Bang Theory: http://www.youtube.com/watch?v=JA96Fba-WHk

Önceki Ders: Çağrışım yoluyla öğrenme: Klasik Koşullanma

Sonraki Ders: İçgörü ve Gözlem Yoluyla Öğrenme

Bu Blogda Ara

Üniversite Dersleri