Dentro de los procedimientos conductuales, el condicionamiento operante o instrumental es probablemente el que tiene aplicaciones más numerosas y variadas. 

Desde el tratamiento de fobias hasta la superación de adicciones como el tabaquismo o el alcoholismo, el esquema operante permite conceptualizar y modificar prácticamente cualquier hábito a partir de la intervención sobre unos pocos elementos.

Pero ¿en qué consiste exactamente el condicionamiento operante? En este artículo repasamos los conceptos clave para entender este paradigma y detallamos sus aplicaciones más frecuentes, tanto para aumentar conductas como para reducirlas.

Antecedentes del condicionamiento operante

El condicionamiento operante tal y como lo conocemos fue formulado y sistematizado por Burrhus Frederic Skinner en base a las ideas planteadas previamente por otros autores.

Ivan Pavlov y John B. Watson habían descrito el condicionamiento clásico, también conocido como condicionamiento simple o pavloviano.

Por su parte, Edward Thorndike introdujo la ley del efecto, el antecedente más claro del condicionamiento operante. La ley del efecto plantea que si una conducta tiene consecuencias positivas para quien la realiza será más probable que se repita, mientras que si tiene consecuencias negativas esta probabilidad disminuirá. En el contexto de la obra de Thorndike el condicionamiento operante es denominado “instrumental”.

Diferencia entre condicionamiento clásico y operante

La diferencia principal entre el condicionamiento clásico y el operante es que el primero se refiere al aprendizaje de información sobre un estímulo, mientras que el segundo implica un aprendizaje sobre las consecuencias de la respuesta.

Skinner opinaba que la conducta era mucho más fácil de modificar si se manipulaban sus consecuencias que si simplemente se asociaban estímulos a ésta, como sucede en el condicionamiento clásico. El condicionamiento clásico se basa en la adquisición de respuestas reflejas, con lo cual explica una menor cantidad de aprendizajes y sus usos son más limitados que los del operante, ya que éste hace referencia a conductas que el sujeto puede controlar a voluntad.

Conceptos del condicionamiento operante

A continuación definiremos los conceptos básicos del condicionamiento operante para entender mejor este procedimiento y sus aplicaciones. 

Muchos de estos términos son compartidos por las orientaciones conductuales en general, si bien pueden tener connotaciones específicas dentro del paradigma operante.

Respuesta instrumental u operante

Este término designa cualquier conducta que conlleva una consecuencia determinada y es susceptible de cambiar en función de ésta. Su nombre indica que sirve para obtener algo (instrumental) y que actúa sobre el medio (operante) en lugar de ser provocada por éste, como sucede en el caso del condicionamiento clásico o respondiente.

En la teoría conductista la palabra “respuesta” es básicamente equivalente a “conducta” y “acción”, si bien “respuesta” parece hacer referencia en mayor medida a la presencia de estímulos antecedentes.

Consecuencia

En la psicología conductista y cognitivo-conductual una consecuencia es el resultado de una respuesta. La consecuencia puede ser positiva (refuerzo) o negativa (castigo) para el sujeto que lleve a cabo la conducta; en el primer caso la probabilidad de que se dé la respuesta aumentará y en el segundo disminuirá.

Es importante tener en cuenta que las consecuencias afectan a la respuesta y, por tanto, en el condicionamiento operante lo que es reforzado o castigado es dicha conducta, no la persona o el animal que la lleva a cabo. En todo momento se trabaja con la intención de influir en el modo en el que se relacionan los estímulos y las respuestas, ya que desde la filosofía conductista se evita partir desde una visión esencialista de las personas, poniendo más énfasis en aquello que puede cambiar que en lo que siempre parece permanecer igual.

Reforzamiento

Este término designa las consecuencias de las conductas cuando hacen más probable que se vuelvan a dar. El reforzamiento puede ser positivo, en cuyo caso estaremos hablando de la obtención de una recompensa o premio por la ejecución de una respuesta, o negativo, que engloba la desaparición de estímulos aversivos.

Dentro del reforzamiento negativo podemos distinguir entre respuestas de evitación y de escape. Las conductas de evitación previenen o impiden la aparición de un estímulo aversivo; por ejemplo, una persona con agorafobia que no sale de casa porque así no siente ansiedad está evitando esta emoción. En cambio las respuestas de escape hacen que el estímulo desaparezca cuando ya está presente.

La diferencia con la palabra “reforzador” es que ésta se refiere al evento que se da como consecuencia de la conducta en vez de al procedimiento de premiar o castigar. Por tanto, “reforzador” es un término más cercano a “recompensa” y “premio” que a “reforzamiento”.

Castigo

Un castigo es cualquier consecuencia de una conducta determinada que disminuya la probabilidad de que ésta se repita.

Como el reforzamiento, el castigo puede ser positivo o negativo. El castigo positivo se corresponde con la presentación de un estímulo aversivo después de que se produzca la respuesta, mientras que el castigo negativo es la retirada de un estímulo apetitivo como consecuencia de la conducta.

El castigo positivo se puede relacionar con el uso que se da en general a la palabra “castigo”, mientras que el castigo negativo se refiere más bien a algún tipo de sanción o multa. Si un niño no deja de gritar y recibe una bofetada de su madre para que se calle se le estará aplicando un castigo positivo, mientras que si en vez de eso le quita la consola a la que está jugando recibirá un castigo negativo.

Estímulo discriminativo y estímulo delta

En Psicología, la palabra “estímulo” se utiliza para designar eventos que provocan una respuesta por parte de una persona o animal. Dentro del paradigma operante, el estímulo discriminativo es aquel cuya presencia indica al sujeto de aprendizaje que si lleva a cabo una determinada conducta ésta tendrá como consecuencia la aparición de un reforzador o de un castigo.

Por contra, la expresión “estímulo delta” se refiere a aquellas señales que, al estar presentes, informan de que la ejecución de la respuesta no conllevará consecuencias.

¿En qué consiste el condicionamiento operante?

El condicionamiento instrumental u operante es un procedimiento de aprendizaje que se basa en que la probabilidad de que se dé una respuesta determinada depende de las consecuencias esperadas. En el condicionamiento operante la conducta es controlada por estímulos discriminativos presentes en la situación de aprendizaje que transmiten información sobre las consecuencias probables de la respuesta.

Por ejemplo, un cartel de “Abierto” en una puerta nos indica que si intentamos girar el pomo lo más probable es que se abra. En este caso el cartel sería el estímulo discriminativo y la apertura de la puerta funcionaría como reforzador positivo de la respuesta instrumental de girar el pomo.

El análisis conductual aplicado de B. F. Skinner

Skinner desarrolló técnicas de condicionamiento operante que se engloban en lo que conocemos como “análisis de conducta aplicado”. Éste se ha mostrado particularmente eficaz en la educación de niños, con un énfasis especial en los niños con dificultades del desarrollo.

El esquema básico del análisis conductual aplicado es el siguiente. En primer lugar se plantea una meta conductual, que consistirá en el aumento o la reducción de comportamientos determinados. En función de esto se reforzarán las conductas que se quiere desarrollar y se reducirán los incentivos existentes para la realización de las conductas que se pretende inhibir.

En general la retirada de reforzadores es más deseable que el castigo positivo puesto que genera menos rechazo y hostilidad por parte del sujeto. No obstante el castigo puede ser útil en casos en que la conducta problema es muy disruptiva y requiere una reducción rápida, por ejemplo si se da violencia.

Durante todo el proceso es fundamental monitorear el progreso de forma sistemática para poder comprobar con objetividad si los objetivos deseados se están produciendo. Esto se lleva a cabo principalmente mediante el registro de datos.

Técnicas operantes para desarrollar conductas

Dadas la importancia y la eficacia del refuerzo positivo, las técnicas operantes para aumentar conductas tienen una utilidad demostrada. A continuación describiremos los más relevantes de entre estos procedimientos.

1. Técnicas de instigación

Se consideran técnicas de instigación aquellas que dependen de la manipulación de estímulos discriminativos para aumentar la probabilidad de que se dé una conducta.

Este término incluye las instrucciones que incrementan determinadas conductas, la guía física, que consiste en mover o colocar partes del cuerpo de la persona entrenada, y el modelado, en que se observa a un modelo realizando una conducta para poder imitarlo y aprender cuáles son sus consecuencias. Estos tres procedimientos tienen en común que se centran en enseñar directamente al sujeto cómo tiene que realizar una acción determinada, sea verbal o físicamente.

2. Moldeamiento

Consiste en acercar gradualmente una conducta determinada a la conducta objetivo, empezando por una respuesta relativamente parecida que el sujeto pueda realizar y modificándola poco a poco. Se lleva a cabo por pasos (aproximaciones sucesivas) a los que se aplica reforzamiento.

El moldeamiento es considerado especialmente útil para establecer conductas en sujetos que no se pueden comunicar verbalmente, como las personas con discapacidad intelectual profunda o los animales.

3. Desvanecimiento

El desvanecimiento se refiere a la retirada gradual de las ayudas o instigadores que se habían utilizado para reforzar una conducta meta. Se pretende que el sujeto consolide una respuesta y posteriormente pueda llevarla a cabo sin necesidad de ayudas externas. 

Es uno de los conceptos clave del condicionamiento operante, ya que permite que los progresos llevados a cabo en terapia o en el entrenamiento puedan generalizarse a muchos otros ámbitos de la vida.

Este procedimiento consiste fundamentalmente en sustituir un estímulo discriminativo por otro distinto.

4. Encadenamiento

Una cadena conductual, es decir, una conducta compuesta por varias conductas simples, se separa en distintos pasos (eslabones). A continuación el sujeto debe aprender a ejecutar los eslabones uno a uno hasta lograr llevar a cabo la cadena completa.

El encadenamiento puede realizarse hacia delante o hacia atrás y tiene como peculiaridad que cada eslabón refuerza al anterior y funciona como estímulo discriminativo del siguiente.

En ciertos aspectos, buena parte de las habilidades que se consideran talentos por mostrar un alto grado de destreza y especialización en ellos (como por ejemplo tocar muy bien un instrumento musical, bailar muy bien, etc.) pueden ser consideradas fruto de alguna forma de encadenamiento, dado que desde las habilidades básicas se va progresando hasta alcanzar otras mucho más trabajadas.

5. Programas de reforzamiento

En un procedimiento de aprendizaje operante, los programas de reforzamiento son las pautas que establecen cuándo será premiada la conducta y cuándo no.

Hay dos tipos básicos de programas de reforzamiento: los de razón y los de intervalo. En los programas de razón se obtiene el reforzador después de que se dé un número concreto de respuestas, mientras que en los de intervalo esto sucede después de que haya pasado un tiempo determinado desde la última conducta reforzada y ésta vuelva a darse.

Ambos tipos de programa pueden ser fijos o variables, lo cual indica que el número de respuestas o el intervalo de tiempo necesarios para la obtención del reforzador pueden ser constantes u oscilar en torno a un valor promedio. También pueden ser continuos o intermitentes; esto significa que la recompensa puede darse cada vez que el sujeto lleve a cabo la conducta objetivo o bien de vez en cuando (aunque siempre como consecuencia de una emisión de la respuesta deseada).

El reforzamiento continuo es más útil para establecer conductas y el intermitente para mantenerlas. Así, teóricamente un perro aprenderá más rápido a dar la pata si le damos un premio cada vez que nos ofrezca la pata, pero una vez aprendida la conducta será más difícil que deje de hacerla si le damos el reforzador uno de cada tres o cinco intentos.

Técnicas operantes para reducir o eliminar conductas

Al aplicar técnicas operantes para reducir conductas conviene tener en mente que, dado que estos procedimientos pueden ser desagradables para los sujetos, siempre es preferible utilizar los menos aversivos cuando sea posible. Asimismo estas técnicas son preferibles a los castigos positivos.

A continuación presentamos un listado de estas técnicas en orden de menor a mayor potencial de generar aversión.

1. Extinción

Se deja de recompensar una conducta que había sido reforzada con anterioridad. Esto disminuye la probabilidad de que la respuesta vuelva a darse. Formalmente la extinción es lo opuesto al reforzamiento positivo.

A largo plazo la extinción es más eficaz para eliminar respuestas que el castigo y el resto de técnicas operantes para reducir conductas, si bien puede ser más lenta.

Un ejemplo básico de extinción es lograr que un niño pare de patalear simplemente ignorándolo hasta que se dé cuenta de que su conducta no tiene las consecuencias deseadas (por ejemplo el enfado de los padres, que funcionaría como reforzador) y se harte.

2. Entrenamiento de omisión

En este procedimiento, a la conducta del sujeto le sigue la ausencia de la recompensa; es decir, si se da la respuesta no se obtendrá el reforzador. Un ejemplo del entrenamiento de omisión podría ser que unos padres impidan a su hija ver la televisión esa noche por haberles hablado de forma irrespetuosa. Otro ejemplo sería el hecho de no ir a comprar los juguetes que los niños piden, si estos se portan mal. 

En ámbitos educativos, además, sirve para favorecer que se valoren más los esfuerzos que otras personas hacen para contentar a los pequeños y que estos, al haberse acostumbrado a estos tratos, no valoran.

3. Programas de reforzamiento diferencial

Son un subtipo especial de programa de reforzamiento que se utiliza para reducir (no eliminar) las conductas objetivo aumentando otras respuestas alternativas. Por ejemplo, se podría premiar a un niño por leer y por hacer ejercicio y no por jugar a la consola si se pretende que esta última conducta pierda valor reforzante.

En el reforzamiento diferencial de tasas bajas se refuerza la respuesta si se da un determinado periodo de tiempo después de la última vez que se produjo. En el reforzamiento diferencial de omisión el refuerzo se obtiene si, después de un periodo de tiempo determinado, la respuesta no se ha producido. El reforzamiento diferencial de conductas incompatibles consiste en reforzar respuestas incompatibles con la conducta problema; este último procedimiento se aplica a los tics y la onicofagia, entre otros trastornos.

4. Coste de respuesta

Variante del castigo negativo en que la ejecución de la conducta problema provoca la pérdida de un reforzador. El carnet de puntos para conductores que se introdujo en España hace unos años es un buen ejemplo de programa de coste de respuesta.

5. Tiempo fuera

El tiempo fuera consiste en aislar al sujeto, en general niños, en un entorno no estimulante en caso de que se produzca la conducta problemática. También una variante del castigo negativo, se diferencia del coste de respuesta en que lo que se pierde es la posibilidad de acceder al refuerzo, no el reforzador en sí.

6. Saciación

El refuerzo que se obtiene por llevar a cabo la conducta es tan intenso o cuantioso que pierde el valor que tenía para un sujeto. Esto puede tener lugar por saciación de respuesta o práctica masiva (repetir la conducta hasta que deje de ser apetitiva) o bien por saciación de estímulo (el reforzador pierde su apetitividad por exceso).

7. Sobrecorrección

La sobrecorrección consiste en aplicar un castigo positivo relacionado con la conducta problema. Por ejemplo, es muy utilizada en casos de enuresis, en que se pide al niño que lave las sábanas después de orinarse encima durante la noche.

Técnicas de organización de contingencias

Los sistemas de organización de contingencias son procedimientos complejos a través de los cuales se puede reforzar unas conductas y castigar otras.

La economía de fichas es un ejemplo muy conocido de este tipo de técnicas. Consiste en entregar fichas (u otros reforzadores genéricos equivalentes) como premio por la realización de las conductas objetivo; posteriormente los sujetos pueden intercambiar sus fichas por premios de valor variable. Se utiliza en escuelas, cárceles y hospitales psiquiátricos.

Los contratos conductuales o de contingencias son acuerdos entre varias personas, normalmente dos, mediante los que se comprometen a realizar (o a no realizar) determinadas conductas. En los contratos se detallan las consecuencias en caso de que se cumplan o incumplan las condiciones acordadas.

Referencias bibliográficas:

  • Domjam, M. (2010). Principios básicos de aprendizaje y conducta. Madrid: Thomson.
  • Labrador, F. J. (2008). Técnicas de modificación de conducta. Madrid: Pirámide.