Condicionamento operante

O conceito de condicionamento operante foi criado pelo escritor e psicólogo Burrhus Frederic Skinner. Este refere-se ao procedimento através do qual é modelada uma resposta no organismo através de reforço diferencial e aproximações sucessivas. É onde a resposta gera uma consequência e esta consequência afeta a sua probabilidade de ocorrer novamente; se a consequência for reforçadora, aumenta a probabilidade, se for punitiva, além de diminuir a probabilidade de sua ocorrência futura, gera outros efeitos colaterais. Este tipo de comportamento que tem como consequência um estímulo que afete sua frequência é chamado “Comportamento Operante”.

O conceito de Comportamento Operante difere do conceito de Comportamento respondente, estudado por Pavlov, porque o primeiro ocorre em um determinado contexto, chamado estímulo discriminativo, e gera um estímulo que afeta a probabilidade dele ocorrer novamente; o segundo é diretamente eliciado por algum estímulo e é uma reação fisiológica do organismo. Uma resposta fisiológica a um estímulo, como fechar o olho diante de algo que se aproxima dele, retirar o braço diante de uma agulhada, etc.

O comportamento operante é modelado a partir de nosso repertório inato. As respostas que gerem mais reforço em média, tendem a aumentar de frequência e se estabelecer no repertório, ou seja, em um contexto semelhante tendem a ser novamente emitidas. O tipo de consequência que aumenta a probabilidade de ocorrência da mesma função de resposta em contextos semelhantes, chama-se reforço. O reforço pode ser positivo, quando há a adição de um estímulo no ambiente que resulte no aumento da frequência da resposta que o gerou; ou negativo, quando a resposta emitida remove algum estímulo aversivo, ou seja, que a pessoa tende a evitar, do ambiente.

Os contextos onde existe probabilidade de uma determinada resposta ser reforçada são chamados estímulos discriminativos, ou SD; os contextos onde não existe a probabilidade da resposta ser reforçada, são chamados estímulos delta, ou S∆.

Lei do Efeito de Thorndike

editar

O condicionamento operante, também chamado de condicionamento instrumental ou aprendizagem instrumental foi primeiramente estudado por Edward L. Thorndike (1874-1949), que observou o comportamento de gatos tentando escapar de "caixas problemas".[1] Na primeira vez que os gatos eram colocados nas caixas, eles demoravam bastante tempo para escapar delas. Mas, com o passar do tempo, as respostas ineficientes foram diminuindo de frequência, e as respostas mais efetivas aumentavam de frequência, e os gatos agora conseguiam escapar em menos tempo e com menos tentativas. Em sua Lei do Efeito, Thorndike teorizou que as respostas que produziam consequências mais satisfatórias, foram "escolhidas" pela experiência e portanto, aumentaram de frequência. Algumas consequências reforçavam o comportamento, outras enfraqueciam-no". Thorndike produziu a primeira curva de aprendizagem com este procedimento. B. F. Skinner (1904-1990)formulou uma análise mais detalhada do condicionamento operante utilizando de conceitos como reforçamento, punição e extinção. Seguindo as idéias de Ernst Mach, Skinner rejeitou as estruturas mediadores de Thorndike requeridas pela "satisfação" e construiu um novo conceito de comportamento sem a utilização de tais referências.

Princípios do Reforço

editar

É importante ressaltar que reforço, ao contrário do que pode pensar o senso comum, não é uma simples recompensa. Para B. F. Skinner, reforço, pode ser qualquer evento que aumenta a frequência de uma reação precedente. Um reforço pode ser uma recompensa tangível. Pode ser um elogio ou uma atenção. Ou pode ser uma atividade, como poder usar o carro depois que a louça estiver lavada, ou ter uma folga depois de uma hora de estudo.[2]

Reforços Primários e Secundários

editar

Os reforços primários - como receber alimento ou ser aliviado de um choque elétrico - são intrinsecamente satisfatórios. Os reforços secundários são aprendidos. Se um rato numa caixa de Skinner aprende que uma luz sinaliza de maneira confiável que a comida está chegando, ele vai se empenhar em acender a luz. Dinheiro, boas notas, são exemplos de reforços secundários, cada um das quais está ligado a recompensas mais básicas.[2]

Reforços Imediatos e Retardados

editar

Para ilustrar bem como funcionam esses dois tipos de reforços, pode-se usar como exemplo um experimento de moldagem em que se condiciona um rato a apertar uma barra. Antes de efetuar esse comportamento "desejado", o rato faminto se empenhará numa sequência de comportamentos "indesejados" - arranhar, farejar, andar de um lado para o outro. qualquer desses comportamentos que preceda imediatamente o reforço de comida tem mais probabilidade de ocorrer de novo. Se você retarda o reforço da pressão da barra por mais 30 segundos, permitindo que outros comportamentos interfiram e sejam recompensados, não ocorrerá praticamente qualquer aprendizagem de apertar a barra.[2]

Humanos, ao contrário de ratos, reagem a reforços bem mais retardados: o pagamento do salário no fim do mês, a nota no fim do semestre, o troféu no campeonato.

Porém, reforços pequenos, mas imediatos, são às vezes mais atraentes do que reforços grandes, mas retardados. Fumantes, alcoólatras e outros usuários de drogas podem saber que seu prazer imediato é mais do que contrabalançado pelos futuros efeitos perniciosos, mas nem por isso abandonam seu vício.

Reforço Positivo, Reforço Negativo e Punição

editar

Existem duas formas de reforço: o positivo e o negativo. Ambas têm como escopo ensinar e reforçar um determinado comportamento. O indivíduo aprende qual o comportamento desejável para alcançar determinado objetivo. Já a punição reforça qual o comportamento indesejável, ou seja, que não deve ser manifestado, para evitá-la.

No reforço positivo, quando o comportamento desejado é alcançado, um elemento de recompensa é adicionado. Para exemplificar o reforço positivo consideremos um experimento onde um rato é privado de comida. Quando este puxa determinada alavanca (comportamento desejado) é disponibilizado o alimento (elemento de recompensa). Com o passar do tempo o rato ao sentir fome irá puxar a alavanca para receber o alimento. Desta forma o ser exposto ao reforço positivo aprende o comportamento correspondente.

Já no caso do reforço negativo, um elemento aversivo ao ser é retirado do ambiente como reforço para a continuação do comportamento. Como, por exemplo, uma mãe que diz ao filho que ele não precisará lavar a louça enquanto estiver mantendo seu quarto limpo. Ela retira um elemento aversivo para o filho (Lavar a louça) para que ele continue com o comportamento de manter o quarto limpo.

A punição, ao contrário do reforçamento negativo, (que visa a continuação do comportamento) tem como objetivo a extinção do comportamento, ou seja, com o passar do tempo, a probabilidade de ele ocorrer novamente diminui. O reforçamento negativo não é um evento punitivo. É a remoção de um evento punitivo. Ambos utilizam de estímulos aversivos.[3]

As punições podem ser de dois tipos: por adição (punição positiva), quando experiências aversivas são adicionadas, ou por subtração (punição negativa), quando facilitadores do comportamento são subtraídos. Ambas as técnicas levam a aquilo que chamamos de extinção.

A punição pode acarretar uma série de problemas: esse tipo de estimulação aversiva, acarreta respostas do sistema nervoso, entendidas como ansiedade, depressão, baixa auto-estima.[4] Além do mais, o comportamento punido não é esquecido, ele é suprimido. Pode ser que, após a estimulação aversiva ter sido eliminada, o comportamento volte a ocorrer. A criança pode simplesmente aprender a não dizer palavrões em casa, mas continuar a usá-los em outros lugares.

Ela também suprime o comportamento indesejado, mas não guia a pessoa para um comportamento mais desejável. A punição diz o que não fazer, o reforço diz o que fazer. Uma punição combinada com um reforçamento positivo de comportamentos desejáveis é mais eficiente.

Em suma, a punição rápida e segura pode ser eficaz, e pode de vez em quando causar menos dor do que o comportamento autodestrutivo que suprime. Mas ele pode reaparecer, se for possível evitar a punição. Esse estímulo aversivo também pode provocar efeitos colaterais indesejáveis, como ansiedade e ensinar agressividade. Os psicólogos preferem dar mais ênfase ao reforço positivo do que à punição.

Programações de Reforço

editar

Utilizando de esquemas de reforço contínuo, a aprendizagem ocorre rapidamente, mas, sem o reforço, a extinção do aprendido também ocorre rapidamente. Na vida real, esquemas contínuos de reforço são raros.[2]

Nevin, em 1988, estudou que as reações às vezes são reforçadas, às vezes não. É o que se chama de reforço parcial. A aprendizagem demora mais, no começo, mas ela é mais "resistente" à extinção. Imagine um pombo que aprendeu a bicar uma tecla para obter comida. quando o pesquisador vai suspendendo gradativamente a entrega de alimento, até que ela ocorra só de maneira rara e imprevisível, os pombos podem bicar 150.000 vezes sem recompensa. Com o reforço parcial, a esperança flui eterna (esse é o princípio do "pombo supersticioso" de Skinner). É o que ocorre por exemplo, em jogadores compulsivos, que continuam a jogar, mesmo sem nunca ganharem.

Esquemas de Razão Fixa

editar

Reforçam o comportamento depois de um determinado número de respostas. Empregados que trabalham em fábricas que recebem por produção, são reforçados de tal maneira quando são recompensados.

Esquemas de Razão Variável

editar

Reforçam a primeira resposta depois de uma quantidade imprevisível de respostas. É o que ocorre com os jogadores e pescadores. A dificuldade de se extinguir tais comportamentos é de que o reforço aumenta à medida que aumentam as respostas. As programações de ritmo variável são constantes. Dependem muito de certos factores.


Esquemas de Intervalos Fixos

editar

Reforça a primeira resposta depois de um período determinado. Como pessoas que verificam a caixa de correspondência quando a hora do carteiro passar se aproxima, os pombos bicam uma tecla com mais frequência à medida que fica mais próxima a hora esperada de recompensa, produzindo um padrão inconstante de "para-começa".

Esquemas de Intervalo Variável

editar

Reforça a primeira resposta depois de intervalos de tempo variáveis. Como o questionário imprevisível que reforça o estudo, as programações de intervalo variável tendem a ciliar respostas lentas e firmes. Caso os questionários tornem-se previsíveis, os estudantes começarão a seguir o padrão de pára-começa que caracteriza as programações de intervalo fixo (em outras palavras, estudarão apenas na véspera).

O Uso dos modelos Animais

editar

Um behaviorista utiliza o comportamento dos animais não como forma de poder estudar as particularidades que os animais possuem quanto ao seus comportamentos, mas para procurar leis universais que regem o comportamento dos organismos. Para Skinner (1956), os esquemas de reforço do condicionamento operante são universais. Importa pouco, disse ele, que reação, que reforço ou que espécie você usa. O efeito de determinada programação de reforço é quase o mesmo: "Pombo, rato, macaco, o que é o quê? Não importa… O comportamento apresenta características espantosamente similares."

Referências

  1. Thorndike, E. L. (1901). Animal intelligence: An experimental study of the associative processes in animals. Psychological Review Monograph Supplement, 2, 1-109.
  2. a b c d Myers, D (1999) em "Introdução a Psicologia Geral", Rio de Janeiro: LTC - Livros Técnicos e Científicos Editora S.A.
  3. Skinner, B. F. (1974) em "Sobre O Behaviorismo" São Paulo: Editora Cultrix
  4. Skinner, B. F. (1971) em "Para Além da Liberdade e da Dignidade" Lisboa: Edições 70
  Este artigo sobre Behaviorismo é um esboço. Você pode ajudar a Wikipédia expandindo-o.