¿Por qué no hay más jailbreak de ChatGPT? 7 razones por las que los jailbreak de ChatGPT no funcionan

2023/11/14

Cuando se lanzó ChatGPT, lo primero que querían hacer sus usuarios era derribar sus muros y superar sus límites. Conocido como jailbreaking, los usuarios de ChatGPT engañaron a la IA para que excediera los límites de su programación con resultados increíblemente interesantes y, a veces, absolutamente descabellados.

Desde entonces, OpenAI ha reforzado ChatGPT para hacer que los jailbreak sean mucho más difíciles de ejecutar. Pero eso no es todo; Los jailbreak de ChatGPT, en general, parecen haberse agotado, lo que lleva a los usuarios de ChatGPT a preguntarse si los jailbreak funcionan.

Entonces, ¿adónde se han ido todos los jailbreak de ChatGPT?

1. Las habilidades de activación de ChatGPT han mejorado en general

Un hombre escribiendo en una computadora portátil

Antes de la llegada de ChatGPT, conversar con la IA era una habilidad de nicho limitada a quienes tenían acceso a los laboratorios de investigación. La mayoría de los primeros usuarios carecían de experiencia en la elaboración de indicaciones efectivas. Esto llevó a muchas personas a emplear jailbreaks, una forma conveniente de lograr que el chatbot hiciera lo que querían con un mínimo esfuerzo y habilidades de indicación.

Hoy, el paisaje ha evolucionado. Impulsar la competencia se está convirtiendo en una habilidad generalizada. A través de una combinación de experiencia obtenida del uso repetido y el acceso a las guías de indicaciones de ChatGPT disponibles gratuitamente, los usuarios de ChatGPT han perfeccionado sus habilidades de indicaciones. En lugar de buscar soluciones alternativas como jailbreak, una gran parte de los usuarios de ChatGPT se han vuelto más expertos en el uso de diferentes estrategias para lograr objetivos que habrían requerido jailbreak en el pasado.

2. El auge de los chatbots sin censura

A medida que las grandes empresas de tecnología refuerzan la moderación del contenido en los chatbots de IA convencionales como ChatGPT, las nuevas empresas más pequeñas y centradas en las ganancias optan por menos restricciones, apostando por la demanda de chatbots de IA libres de censura. Con un poco de investigación, encontrará docenas de plataformas de chatbots de IA que ofrecen chatbots sin censura que pueden hacer casi cualquier cosa que usted desee.

Ya sea escribiendo esas novelas de suspenso y humor negro que ChatGPT se niega a escribir o escribiendo malware que ataca las computadoras de las personas, estos chatbots sin censura con una brújula moral sesgada harán lo que quieras. Con ellos cerca, no tiene sentido poner energía extra para escribir jailbreaks para ChatGPT. Aunque no necesariamente son tan poderosas como ChatGPT, estas plataformas alternativas pueden realizar cómodamente una amplia variedad de tareas. Plataformas como FlowGPT y Unhinged AI son algunos ejemplos populares.

3. Hacer jailbreak se ha vuelto más difícil

Imagen de un candado en una computadora.

En los primeros meses de ChatGPT, liberar ChatGPT era tan simple como copiar y pegar indicaciones de fuentes en línea. Podrías alterar por completo la personalidad de ChatGPT con sólo unas pocas líneas de instrucciones complicadas. Con indicaciones simples, puedes convertir a ChatGPT en un villano malvado que enseña a fabricar bombas o en un chatbot dispuesto a utilizar todo tipo de malas palabras sin restricciones. Fue una batalla campal que produjo jailbreaks infames como DAN (Do Anything Now). DAN implicaba un conjunto de instrucciones aparentemente inofensivas que obligaban al chatbot a hacer cualquier cosa que se le pidiera sin negarse. Sorprendentemente, estos toscos trucos funcionaron en aquel entonces.

Sin embargo, esos primeros días salvajes son historia. Estas indicaciones básicas y trucos baratos ya no engañan a ChatGPT. El jailbreak ahora requiere técnicas complejas para tener la posibilidad de eludir las ahora sólidas salvaguardias de OpenAI. Dado que el jailbreak se vuelve tan difícil, la mayoría de los usuarios están demasiado desanimados para intentarlo. Los exploits fáciles y abiertos de los primeros días de ChatGPT han quedado atrás. Lograr que el chatbot diga una palabra equivocada ahora requiere un esfuerzo y experiencia significativos que tal vez no valga la pena el tiempo y el esfuerzo.

4. La novedad ha desaparecido

Hombre formal desinteresado mirando la pantalla de una computadora portátil

Una fuerza impulsora detrás de los intentos de muchos usuarios de hacer jailbreak a ChatGPT fue la emoción y el entusiasmo de hacerlo en los primeros días. Como nueva tecnología, hacer que ChatGPT se portara mal fue entretenido y le valió el derecho de alardear. Si bien existen innumerables aplicaciones prácticas para los jailbreak de ChatGPT, muchos las buscaron por el atractivo de «guau, mira lo que hice». Pero poco a poco el entusiasmo por la novedad se ha ido apagando y, con él, el interés de la gente por dedicar tiempo a los jailbreak.

5. Los jailbreak se reparan rápidamente

Una práctica común dentro de la comunidad de jailbreak de ChatGPT es compartir cada exploit exitoso cuando se descubre. El problema es que cuando los exploits se comparten ampliamente, OpenAI a menudo se da cuenta de ellos y corrige las vulnerabilidades. Esto significa que los jailbreak dejan de funcionar antes de que las personas interesadas puedan siquiera probarlos.

Entonces, cada vez que un usuario de ChatGPT desarrolla minuciosamente un nuevo jailbreak, compartirlo con la comunidad acelera su desaparición mediante parches. Esto desincentiva la idea de hacerlo público cada vez que un usuario se encuentra con un jailbreak. El conflicto entre mantener activos los jailbreak pero ocultos versus publicarlos crea un dilema para los creadores de jailbreak de ChatGPT. Hoy en día, la mayoría de las veces, la gente opta por mantener en secreto sus fugas para evitar que se solucionen las lagunas.

6. Alternativas locales sin censura

persona que sostiene un teléfono inteligente con una aplicación de chatbot frente al espectador rodeado de íconos

El aumento de modelos de lenguaje local de gran tamaño que puede ejecutar localmente en su computadora también ha disminuido el interés en los jailbreak de ChatGPT. Si bien los LLM locales no están completamente libres de censura, muchos están significativamente menos censurados y pueden modificarse fácilmente para adaptarse a los deseos de los usuarios. Entonces, las opciones son simples. Puedes participar en el interminable juego del gato y el ratón para encontrar una manera de engañar al chatbot y solucionarlo en breve. O puede conformarse con un LLM local que puede modificar permanentemente para hacer lo que desee.

Encontrará una lista sorprendentemente larga de potentes LLM sin censura que puede implementar en su computadora con una censura laxa. Algunos notables son Llama 7B (sin censura), Zephyr 7B Alpha, Manticore 13B, Vicuna 13B y GPT-4-X-Alpaca.

7. Los jailbreakers profesionales ahora se venden con fines de lucro

Un grupo de empresarios en trajes discutiendo proyectos.

¿Por qué dedicar un tiempo precioso a desarrollar indicaciones de jailbreak si no obtendrás nada de ello? Bueno, algunos profesionales ahora venden jailbreak para obtener ganancias. Estos creadores profesionales de jailbreak diseñan jailbreak que realizan tareas específicas y los ponen a la venta en mercados rápidos como PromptBase. Dependiendo de sus capacidades, estos mensajes de jailbreak pueden venderse entre $ 2 y $ 15 por mensaje. Algunos exploits complicados de varios pasos pueden costar mucho más.

¿Podría ser contraproducente la lucha contra los jailbreak?

Los jailbreak no han desaparecido completamente de escena; Acaban de pasar a la clandestinidad. Con OpenAI monetizando ChatGPT, tienen incentivos más fuertes para restringir usos dañinos que podrían afectar su modelo de negocio. Este factor comercial probablemente influya en su impulso agresivo para acabar con los exploits de jailbreak.

Sin embargo, la censura de ChatGPT por parte de OpenAI se enfrenta actualmente a crecientes críticas entre los usuarios. Algunos casos de uso legítimo del chatbot con IA ya no son posibles debido a la estricta censura. Si bien una mayor seguridad protege contra casos de uso dañinos, las restricciones excesivas podrían, en última instancia, empujar a una sección de la comunidad ChatGPT a los brazos de alternativas menos censuradas.