Refuerzo Positivo (Definición + Ejemplos) –

Todos tenemos hábitos que nos gustaría que la gente continuara y hábitos que nos gustaría que la gente abandonara. Por personas me refiero a amigos, familiares, niños o incluso a nosotros mismos. ¿Cómo podemos conseguir que alguien deje de tirar su reciclaje a la basura o que siga yendo al gimnasio con nosotros?

Los psicólogos llevan años intentando responder a estas preguntas. Una de las «respuestas» más famosas es el condicionamiento operante, o el uso de castigos y refuerzos para influir en el comportamiento. En este vídeo, nos centraremos en el refuerzo, pero no en cualquier refuerzo: el refuerzo positivo. (Sí, también existe un refuerzo negativo). Analizaré el refuerzo positivo, su eficacia y los programas de refuerzo que los psicólogos han desarrollado para hacerlo más eficaz.

Acerca del condicionamiento operante

Antes de entrar en estas definiciones, quiero que sepas de dónde vienen estos términos. A finales de la década de 1930, el psicólogo estadounidense BF Skinner introdujo al mundo el condicionamiento operante. A diferencia del condicionamiento clásico (que se hizo famoso por los experimentos con perros de Pavlov), el condicionamiento operante analiza cómo las personas pueden influir en los comportamientos voluntarios. BF Skinner creía que esto podría lograrse mediante el uso de refuerzos y castigos para aumentar la probabilidad de algunas conductas y disminuir la probabilidad de otras.

Por supuesto, el comportamiento no siempre es tan simple. BF Skinner quería profundizar en las motivaciones que llevan a las personas a realizar determinadas conductas y qué podría motivarlas a frenar otras. Además de la idea de refuerzo positivo y negativo, también examinó diferentes horarios y cómo afectaban la probabilidad de que una conducta se volviera a realizar. Llegaremos a los horarios en un minuto; Primero, hablemos de qué es el refuerzo positivo y cómo se ve en la vida cotidiana.

El experimento de la paloma: una ventana al refuerzo positivo

Dentro de los confines de una cámara especializada, a menudo llamada «Caja Skinner», las palomas se convirtieron en sujetos de una profunda exploración del refuerzo positivo. El entorno estructurado permitía que un comportamiento específico, como picotear una llave, fuera seguido inmediatamente por una recompensa, que en este caso era el acceso a la comida. A través de una repetición constante, las palomas formaron una asociación entre picotear la llave y recibir un estímulo gratificante, aumentando la frecuencia del comportamiento, incluso en escenarios donde la recompensa no se presentaba de manera consistente. Esta asociación iluminó que un comportamiento puede incrementarse sistemáticamente combinándolo con un resultado positivo o una recompensa.

El legado del trabajo de Skinner en el contexto moderno

Los experimentos de Skinner con palomas se han vuelto emblemáticos de los principios del refuerzo positivo, demostrando que la conducta puede moldearse estratégicamente combinándola con estímulos gratificantes. Su trabajo ha trascendido su contexto inicial, influyendo en campos como la educación y la gestión del lugar de trabajo al proporcionar un enfoque metodológico para moldear y dirigir el comportamiento a través del refuerzo positivo. Comprender y aplicar estos principios, derivados de la meticulosa investigación de Skinner, permite el desarrollo de estrategias que fomentan comportamientos deseados en varios dominios, estableciendo un plan para la modificación de comportamiento, la enseñanza y el aprendizaje en entornos prácticos.

¿Qué es el refuerzo positivo?

El refuerzo positivo implica introducir un estímulo favorable para fomentar la repetición de una conducta particular. Por ejemplo, cuando a un niño se le da un caramelo cada vez que limpia su habitación, este estímulo gratificante (dulce) actúa como incentivo, animándolo a repetir el comportamiento (limpieza) en previsión de recibir la recompensa nuevamente.

Profundizando en el concepto, el refuerzo positivo implica específicamente la adición de un estímulo deseable para reforzar la recurrencia de una conducta. Este concepto se contrasta con el refuerzo negativo, que implica eliminar un estímulo indeseable para aumentar la probabilidad de que una conducta se repita de manera similar. El refuerzo positivo podría implicar otorgar a un estudiante una estrella dorada cada vez que dé una respuesta correcta, creando una asociación entre el comportamiento deseable (responder correctamente) y un estímulo de recompensa (recibir una estrella). Por el contrario, el refuerzo negativo podría manifestarse permitiendo a los estudiantes abandonar la sala de estudio antes de tiempo una vez que terminen su trabajo, eliminando así un estímulo indeseable (permanecer en la sala de estudio) para promover el comportamiento deseado (completar el trabajo puntualmente). En el contexto del refuerzo negativo, el elemento reforzante es el cese de una experiencia desagradable (como que se le permita dejar de correr una vez que se alcanza una meta o que se silencia una alarma fuerte una vez que se realiza una acción específica).

Centrando nuestra atención en el refuerzo positivo, profundicemos en diversas respuestas y estímulos que pueden integrarse en la experiencia de un individuo para fomentar la recurrencia de conductas específicas. Al hacerlo, es crucial identificar estímulos genuinamente gratificantes o deseables para el individuo, mejorando así de manera efectiva la propensión a que se repita el comportamiento deseado.

Ejemplos de refuerzo positivo

Todos estos son ejemplos de refuerzo positivo que quizás haya presenciado o experimentado:

Los cheques de pago se entregan periódicamente a los empleados que asisten al trabajo y hacen su trabajo.
Un padre le da a su hijo un dólar por limpiar su habitación.
Cada vez que los clientes compran nueve cafés, obtienen el décimo gratis.
Una aplicación te dice: «¡Buen trabajo!» después de haber grabado un entrenamiento.
Un maestro le da a su alumno una calcomanía cada vez que aprueba su examen.
Tratas a tu perro cada vez que se «sienta» cuando se lo ordenas.

Refuerzo continuo versus parcial

Hay algunas formas de abordar el refuerzo positivo. Puede ofrecer refuerzo continuo o refuerzo parcial. Lo más probable es que haya experimentado dar o recibir refuerzo a través de ambos programas.

El refuerzo continuo es cuando una persona o un animal recibe refuerzo cada vez que completa una conducta. Esto significa que su perro recibe un tratamiento cada vez que se «sienta» cuando se le ordena. Tu aplicación dice «buen trabajo» cada vez que terminas un entrenamiento, sin falta. Los psicólogos han descubierto que esta es la mejor manera de presentarle a una persona o animal un nuevo comportamiento. El refuerzo continuo establece la “forma en que funcionan las cosas”.

Por otro lado, el refuerzo parcial es un proceso en el que en ocasiones se le da refuerzo a la persona o al animal. Un padre no puede tener helado en el frigorífico cuando su hijo limpia su habitación. Una cafetería no puede permitirse el lujo de regalar un café cada vez que sus clientes compren uno. El refuerzo parcial, a veces aleatorio y otras veces con un calendario estricto, es menos eficaz que el refuerzo continuo, pero aun así puede hacer el trabajo.

Horarios de refuerzo

Desglosemos aún más el refuerzo parcial. Hay cuatro “programas” diferentes que se pueden utilizar para dar refuerzo positivo:

Proporción fija
relación variable
Intervalo fijo
intervalo variable

Estos diferentes horarios tienen un nivel diferente de efectividad.

Proporción fija

Los cronogramas se basan en la coherencia entre cuándo se entrega la recompensa y qué tan pronto se entrega el refuerzo. En un programa de proporción fija, una persona o un animal recibe refuerzo consistentemente después de haber realizado un comportamiento una cierta cantidad de veces. No reciben refuerzo cada vez, pero saben que siempre recibirán el estímulo después de la cuarta, quinta o décima vez que realizan la conducta.

Por ejemplo, la cafetería que ofrece un café gratis después de comprar nueve cafés tiene un horario de proporción fija. El cliente sabe que recibirá uno gratis después del noveno café.

Este es uno de los programas más efectivos de usar. Si bien es posible que la persona que realiza el comportamiento no vuelva a realizarlo inmediatamente después de que se distribuya el refuerzo, retomará las cosas una vez que sepa que se está acercando a obtener su «premio». Es más probable que pases por la cafetería por la mañana si sabes que sólo tomas dos cafés antes del gratis, ¿verdad?

relación variable

Pero, ¿qué pasaría si no supieras cuántos cafés necesitas comprar antes de calificar para recibir uno gratis? Este es un programa de proporción variable. El refuerzo se distribuye inmediatamente después de que la conducta se realiza varias veces, pero esos tiempos varían. Digamos que tratas a tu perro cinco veces después de que se «sienta» cuando se lo ordenas. Luego, no les das otra golosina hasta que se “senten” cuando se lo ordenes diez veces. Después de eso, no les das otra golosina hasta que se “senten” cuando se lo ordenes tres veces. Si bien esto puede parecer caótico, en realidad es una forma muy eficaz de refuerzo positivo.

¿Se te ocurre el ejemplo más conocido y adictivo de un programa de proporción variable? Aquí tienes una pista: ganarás el premio mayor si obtienes la respuesta correcta. ¡Así es! Las máquinas tragamonedas son uno de los mejores ejemplos de este programa de refuerzo positivo. No puedes garantizar cuándo ganarás el premio mayor, pero si te sientas el tiempo suficiente y sigues jugando, eventualmente lo ganarás. Por eso los casinos generan tanto dinero. La gente está dispuesta a dedicar mucho tiempo y dinero a cambio de un refuerzo positivo.

Intervalo fijo

Los horarios también pueden estar determinados por el tiempo en lugar de por la ocurrencia del comportamiento. A esto se le llama programa de “intervalo fijo”. Hay dos maneras de ver esto. Una es examinar cómo se distribuyen los cheques de pago. La gente recibe cheques de pago por un trabajo una vez al mes o cada dos semanas. Si la persona trabajó durante ese tiempo, recibió su cheque de pago. ¡Esta es sin duda una razón motivadora para presentarse a trabajar!

Sin embargo, los experimentos con animales pueden no implicar cheques de pago o períodos de una semana entre refuerzos. En cambio, un animal en un laboratorio puede recibir un premio cada 10 minutos si presiona una palanca. Cada 10 minutos, se distribuirá esa golosina, pero sólo si se realiza la conducta. Durante ese tiempo, el animal encontrará la motivación para presionar la palanca.

Este programa de refuerzo tiene algunos inconvenientes. Solo se puede alentar al animal a realizar el comportamiento en la marca de los nueve minutos en lugar de inmediatamente después de recibir su refuerzo. Si le dijo a su hijo que podía jugar videojuegos el domingo siempre que hiciera sus tareas del hogar, es posible que solo se sienta motivado a acelerar las tareas el sábado por la noche. Aun así, el comportamiento se cumple.

intervalo variable

El último programa de refuerzo es un programa de intervalo variable. Esto es similar al programa de intervalo fijo, aunque la cantidad de tiempo transcurrido variará. Una semana, puede decirle a su hijo que puede jugar videojuegos los domingos solo si su habitación está limpia. La semana que viene, ese día podría ser el jueves. El próximo será el miércoles. La persona (o animal) que realiza la conducta no sabe cuándo llegará el refuerzo. Aunque es posible que no realicen el comportamiento todos los días de inmediato, con el tiempo desarrollarán el hábito de realizarlo.

Otro ejemplo de cronograma de intervalo variable es una evaluación “sorpresa” de un gerente en el trabajo. Obtienes una tarjeta de regalo gratis si tienes el uniforme adecuado u ofreces un excelente servicio cuando el gerente te evalúa. Este horario mantiene a la gente “en alerta”.

Aplicar refuerzo positivo en varios campos

En Psicología clínica, el refuerzo positivo es crucial en el desarrollo y manejo de conductas. Un ejemplo de esto se puede encontrar en la terapia de Análisis de Comportamiento Aplicado (ABA), comúnmente…