SKILL · CLAUDE CODE v2.0 Apache 2.0 MX

focus-group-mx / documentación

Skill abierto que organiza grupos de enfoque sintéticos sobre un panel de evaluación de 19 perfiles mexicanos documentados con fuentes públicas oficiales. Diseñado para detectar fallas de mensaje antes de pagar pauta, como complemento al trabajo de investigación con humanos reales.

01 — INTRODUCCIÓN

Qué es

focus-group-mx es un skill de Claude Code que organiza grupos de enfoque sintéticos: un panel de evaluación de 19 perfiles mexicanos somete cualquier mensaje, anuncio, promoción o página de aterrizaje a juicio estructurado.

Cada perfil tiene un expediente de aproximadamente 2,500 palabras: biografía, valores, situación económica, hábitos de consumo, tecnología disponible, lenguaje propio, historia electoral y sesgos culturales. Los perfiles cubren los niveles socioeconómicos A/B, C+, C, C-, D+, D, E definidos por AMAI 2024, distintas regiones del país, edades de 22 a 78 años y combinaciones de género, religión y educación.

Cuando se aplica el skill a un texto, los 19 perfiles emiten una evaluación en siete dimensiones operacionalizadas con anclas conductuales explícitas. El resultado es un diagnóstico con puntaje agregado, citas literales por perfil, objeciones detectadas, riesgos culturales identificados y recomendaciones de mejora.

Aclaración importante Este método no reemplaza investigación cualitativa con humanos reales, encuestas representativas, ni paneles tradicionales tipo Nielsen, IPSOS, Parametría o Mitofsky. Su propósito es servir como filtro previo, no como instrumento final de decisión.
02 — APLICACIONES

Para qué sirve

El skill se diseñó para resolver un problema concreto que enfrentan equipos de marketing, agencias pequeñas y dueños de PYMEs en México: revisar la calidad de un mensaje antes de invertir presupuesto en su distribución.

Casos de uso primarios

  • Evaluación previa de anuncios para Facebook, Instagram, TikTok o YouTube antes de comprar pauta
  • Revisión de mensajes de WhatsApp masivos antes de envío a base de clientes
  • Validación de promociones, descuentos y ofertas para distintos segmentos NSE
  • Detección temprana de tono problemático, riesgo de rechazo público o malentendidos culturales
  • Evaluación de páginas de aterrizaje desde la perspectiva de varios perfiles simultáneamente
  • Comparación A/B/C entre versiones de texto publicitario antes de probarlas con presupuesto real

Casos de uso secundarios

  • Evaluación de mensajes políticos a nivel local o estatal (con las limitaciones documentadas en sección 08)
  • Detección preliminar de fallas en campañas de marca antes de producción audiovisual
Casos donde el método no es apropiado Decisiones de inversión publicitaria mayor a un millón de pesos, lanzamientos nacionales, mensajes políticos para campañas federales, o cualquier escenario donde se requiera validez muestral y representatividad estadística. En estos casos, el método puede usarse como diagnóstico inicial únicamente, seguido de investigación tradicional con humanos.
03 — EL PANEL

Los 19 perfiles

El panel actual se compone de 19 perfiles diseñados manualmente con base en datos de INEGI, AMAI, ENDUTIH, INE y PROFECO. Cada uno tiene expediente público auditable dentro del repositorio.

Distribución por nivel socioeconómico (AMAI 2024)

NSEPerfiles% del panel% población MX (AMAI)
A/B15.3%6.5%
C+315.8%14.3%
C421.1%16.9%
C-315.8%13.4%
D+315.8%18.6%
D315.8%22.8%
E210.5%7.5%

Distribución por género, edad y región

  • Género: 10 femenino, 9 masculino
  • Edad: rango 22 a 78 años, mediana 41
  • Regiones representadas: CDMX, Estado de México, Jalisco, Nuevo León, Querétaro, Aguascalientes, Veracruz, Chiapas, Yucatán, Sinaloa, Guerrero
  • Historial electoral 2024: 11 Sheinbaum, 6 Xóchitl Gálvez, 2 Máynez (distribución ajustada para replicar 59.76 / 27.45 / 10.32 reales del INE)

El panel completo

Doña Rosa
E · Chiapas · 67 · tsotsil
Don Tomás
E · Chiapas · 78 · indígena
Sofía
D · Guerrero · 22 · estudiante
Don Beto
D · Veracruz · 58 · obrero
María Fer
C- · Edomex · 38 · madre
Don Luis
D+ · Yucatán · 54 · taxista
Karla
C · Ags · 36 · empleada
Roberto
C+ · NL · 44 · ingeniero
Mariana
C+ · Jal · 32 · soltera
Andrea
C · CDMX · 29 · creativa
Don Pedro
D+ · Sin · 61 · agricultor
Pablo
D · Veracruz · 26 · jornalero
Sra. Carmen
C · CDMX · 56 · ama de casa
Tania
C- · Qro · 25 · cajera
Lourdes
A/B · CDMX · 52 · empresaria
Diego
C+ · CDMX · 31 · UX Klar
Pilar
C · Ags · 43 · católica
Mauricio
C · CDMX · 47 · ingeniero
Adriana
C+ · Jal · 41 · cristiana

Cada perfil incluye en su expediente: biografía narrativa, contexto familiar, ingreso y gasto típico mensual (ENIGH 2024), dispositivos y conectividad (ENDUTIH 2024), categorías de consumo frecuente, marcas de afinidad, lenguaje propio con muletillas y modismos regionales, sesgos políticos, religión, valores y miedos. La intención es que el modelo pueda emitir reacciones coherentes con un mexicano de ese perfil específico, no con un mexicano genérico.

04 — PROCESO

Cómo funciona

El flujo del skill es sencillo y reproducible. El operador entrega el texto a evaluar, define la categoría (consumo masivo, política, fintech, etc.) y el skill emite los pasos en secuencia.

  1. Entrada. Se recibe el mensaje a evaluar (texto, descripción de anuncio, página, promoción) junto con la categoría aplicable.
  2. Asignación de panel. Se selecciona el subconjunto de perfiles relevantes para la categoría. No siempre se usan los 19; depende del público objetivo declarado.
  3. Evaluación individual. Cada perfil emite reacción en siete dimensiones con anclas conductuales explícitas (sección 06).
  4. Citas literales. Cada perfil ofrece al menos una cita literal en su propio lenguaje, capturando objeción principal o reacción dominante.
  5. Cálculo del puntaje. Se calcula el puntaje agregado por categoría (ponderado por dimensión) y se identifican cuadrantes de comportamiento.
  6. Reporte. Se entrega documento con puntaje agregado, principales objeciones, riesgos detectados y recomendaciones de mejora.

Ejemplo mínimo de uso en Claude Code

$ claude

> Usa el skill focus-group-mx para evaluar este texto.
  Categoría: consumo_masivo
  Texto: "Estrena temporada con 30% off. Solo este finde. Llévate
  3 sneakers por $1,499 y paga en 12 sin intereses."

[Claude carga el skill, selecciona panel relevante, ejecuta
las 7 dimensiones por perfil, calcula puntaje agregado y emite
reporte con objeciones, riesgos y recomendaciones]
05 — LAS DIMENSIONES

Las 7 dimensiones

El puntaje agregado se construye sobre siete dimensiones operacionalizadas con anclas conductuales. Cada dimensión se mide en escala de 0 a 10, con descripciones específicas para los niveles 0-1, 2-3, 4-5, 6-7 y 8-9. Esto permite reducir el ruido inter-evaluador y aumentar la consistencia entre perfiles y entre corridas.

DimensiónQué mideAncla baja (0-1)Ancla alta (8-9)
Comprensión¿Se entiende qué se ofrece?"No entendí nada""Cristalino al primer leerlo"
Credibilidad¿Suena cierto o suena falso?"Esto es engaño""Lo creo sin reservas"
Relevancia¿Es para alguien como yo?"No me habla a mí""Esto me describe perfecto"
Intención¿Compraría a causa de este mensaje?"Ni de chiste""Voy a comprarlo ahora"
Accesibilidad¿El precio cabe en mi bolsillo?"Imposible para mí""Es muy razonable"
Viralidad¿Lo compartiría con alguien?"Lo dejo pasar""Se lo mando a mi prima"
Riesgo cultural¿Hay potencial de rechazo público?"Ofensivo o tone-deaf""Limpio culturalmente"

El puntaje final, denominado Comprabilidad, se calcula como promedio ponderado de las primeras seis dimensiones, donde los pesos varían según la categoría del mensaje (los anuncios de imagen de marca pesan más en Viralidad y Riesgo cultural, las promociones pesan más en Intención y Accesibilidad). La dimensión de Riesgo cultural funciona como modificador negativo cuando supera cierto umbral.

06 — METODOLOGÍA

Metodología y operacionalización

La operacionalización de las dimensiones sigue el enfoque de Behaviorally Anchored Rating Scales, propuesto originalmente por Smith y Kendall (1963) y desarrollado posteriormente en literatura de psicometría laboral y de medición de actitudes. Las anclas conductuales reducen el ruido entre evaluadores al sustituir adjetivos abstractos por descripciones de comportamiento observable.

Por qué BARS y no escalas Likert genéricas

Una escala Likert tradicional ("muy malo, malo, regular, bueno, muy bueno") deja al evaluador interpretar la magnitud de cada adjetivo. Esto genera variabilidad inter-evaluador alta. BARS sustituye cada nivel por una descripción de respuesta observable, lo que reduce la varianza y permite que distintos modelos de lenguaje, o el mismo modelo en distintas corridas, lleguen a juicios más consistentes.

El puntaje Comprabilidad

El puntaje se construye con pesos diferenciados por categoría de mensaje. La calibración inicial se realizó comparando casos conocidos del mercado mexicano contra resultados observados, y posteriormente se probó la consistencia con cuatro modelos distintos para evaluar la estabilidad del prompt y de las anclas.

Cuadrantes Comprabilidad × Dispersión

Una métrica auxiliar es el dispersión, definido como la desviación estándar de las evaluaciones individuales entre los 19 perfiles. La combinación de Comprabilidad alta con dispersión bajo indica resonancia universal; Comprabilidad alta con dispersión alto indica resonancia polarizada (típica de mensajes virales con detractores); Comprabilidad baja con dispersión bajo indica fracaso estructural; Comprabilidad baja con dispersión alto indica mensaje confuso o mal segmentado.

Sobre la convergencia entre modelos Cuando cuatro modelos distintos (Claude, Gemini, Grok, ChatGPT) reciben el mismo prompt y la misma definición de perfiles, sus evaluaciones convergen con un coeficiente promedio de r̄ = 0.88. Esto es una métrica de confiabilidad del prompt, no de validez del método. La convergencia indica que las anclas conductuales son lo suficientemente específicas para reducir el sesgo de modelo único, pero no constituye evidencia de que las predicciones sean precisas en el mundo real. Para eso, ver sección 07.
07 — EVIDENCIA

Validaciones realizadas

A continuación se documentan las validaciones realizadas hasta la fecha, con etiquetas explícitas sobre qué tipo de evidencia constituye cada una. La intención es transparencia metodológica completa.

1. Pruebas retrospectivas sobre casos conocidos del mercado mexicano

Se aplicó el método a diez piezas reales del mercado MX cuyo desempeño es de dominio público (cinco exitosas, cinco fracasos). El método separó correctamente los diez casos en su cuadrante esperado.

Casos evaluados: Aeroméxico DNA (2017), Bimbo Contigo (2020), Coca-Cola Nombres (relanzamiento 2025), Coca-Cola Sombras de Rojo (2026), Tecate Sin Violencia (2019, Cannes Glass Lion); Pepsi Kendall Jenner (2017), Indio #OrgullosamenteIndio (2018), Victoria #LadyPrieta (2014), Aeroméxico Casting Polanco (2013), Tecate Es Fácil Ser Hombre (2011).

Categoría: validación retrospectiva. No constituye validez predictiva, dado que el resultado de cada caso era conocido al construir las anclas. Útil como evidencia de que la operacionalización detecta diferencias estructurales entre piezas eficaces e ineficaces.

2. Replicación de la distribución del voto presidencial 2024

El panel evalúa los spots oficiales de las tres principales candidaturas (Sheinbaum, Gálvez, Máynez) y emite distribución agregada de intención. Los resultados aproximan el voto final reportado por INE con menos de dos puntos porcentuales de diferencia.

Categoría: ejercicio de calibración. Los perfiles tienen voto 2024 codificado en sus expedientes, por lo que la replicación no constituye predicción independiente. Útil como evidencia de coherencia interna del panel.

3. Convergencia entre cuatro modelos de lenguaje

El mismo prompt aplicado a cuatro modelos distintos (Claude Opus, Gemini, Grok, ChatGPT) produce evaluaciones con correlación promedio de r̄ = 0.88 en los diez casos retrospectivos.

Categoría: confiabilidad del prompt, no validez del método. Indica que las anclas conductuales reducen el sesgo de modelo único. No constituye evidencia de precisión predictiva en el mundo real.

4. Pendiente: comparación directa contra humanos reales

Esta es la validación más importante y aún no se ha realizado. Está programada como prioridad inmediata: ocho mexicanos reales evaluarán tres piezas también evaluadas por el panel, y se comparará dimensión por dimensión la coincidencia entre veredictos humanos y sintéticos. El resultado de esa comparación se publicará en este mismo sitio cuando esté disponible.

Nota sobre transparencia Las validaciones 1, 2 y 3 son consistentes con buena práctica de psicometría aplicada, pero no son sustituto de validación predictiva contra referencia humana real. El equipo prefiere reportarlas con etiquetas honestas a presentarlas como evidencia más fuerte de la que constituyen. La validación 4, cuando esté disponible, será el paso decisivo para evaluar si el método tiene utilidad operacional real.
08 — LÍMITES

Lo que el método no hace

La utilidad de un instrumento se evalúa tanto por lo que detecta como por lo que ignora. A continuación, las limitaciones documentadas del método en su versión actual.

  • No predice volumen de ventas ni retorno de inversión publicitaria con precisión cuantitativa
  • No incluye representación explícita de personas LGBT+ en el panel actual (corrección programada para v3.0)
  • Incluye únicamente un perfil indígena (tsotsil), insuficiente para mensajes dirigidos a las 68 lenguas y comunidades originarias de México
  • No modela tasa de participación electoral (turnout), por lo que su uso en escenarios políticos requiere supuestos externos
  • No sustituye estudios formales de recordación, notoriedad de marca ni medición continua de marca
  • No realiza análisis interseccional explícito (género × NSE × edad × región) a nivel cuantitativo, aunque los perfiles individuales sí lo reflejan cualitativamente
  • No ha sido comparado de manera directa contra humanos reales (validación en curso, ver sección 07)
  • No es apropiado para decisiones de inversión publicitaria mayor a un millón de pesos sin validación adicional

Estas limitaciones se documentan en el repositorio público y se incluyen en cada reporte que el skill emite, en la sección "Lo que este diagnóstico no captura".

09 — DATOS

Fuentes públicas

Los expedientes de cada perfil se construyeron a partir de fuentes públicas oficiales mexicanas. Cada cifra de ingreso, gasto, dispositivo, hábito o afinidad puede rastrearse a su fuente original.

FuenteAñoInformación utilizada
ENIGH (INEGI)2024Ingreso y gasto de hogares por decil y región
NSE AMAI2024Clasificación socioeconómica estándar de la industria
ENDUTIH (INEGI)2024Disponibilidad y uso de tecnologías de información
INE2024Resultados de la elección presidencial y microdatos electorales
PROFECO QQP2024-2026Precios reales de productos de consumo masivo
Censo Población y Vivienda (INEGI)2020Distribución demográfica y características de hogar
ENSANUT (INEGI/INSP)2022Salud y nutrición para perfiles de hábitos
CONEVAL2024Líneas de bienestar y pobreza por entidad

El corpus completo de investigación utilizado, organizado por tema y catalogado, ocupa aproximadamente 4 GB y está documentado en el repositorio bajo research/INDEX.md.

10 — USO

Instalación y uso

El skill está pensado para integrarse con Claude Code en cualquier máquina. La instalación se realiza clonando el repositorio público en el directorio de skills.

Pasos de instalación

$ cd ~/.claude/skills
$ git clone https://github.com/lahh1986/sistemia-skills-mx.git
$ ls sistemia-skills-mx/skills/
focus-group-mx/

Invocación dentro de Claude Code

> Usa focus-group-mx para evaluar este texto:
  [el texto a evaluar]
  Categoría: [consumo_masivo | politica | fintech | servicios_locales]
  Público objetivo: [opcional, NSE específico]

Salida esperada

El skill devuelve un documento estructurado con: puntaje Comprabilidad agregado, las tres principales objeciones por dimensión, citas literales de los perfiles más relevantes, riesgos culturales detectados, recomendaciones específicas de mejora y sección de limitaciones aplicables al caso.

11 — FUTURO

Hoja de ruta

El proyecto se desarrolla en abierto. Los siguientes hitos están planeados para los próximos meses.

VersiónFocoEstado
v2.019 perfiles, 10 pruebas retrospectivas, calibración elección 2024Publicado
v2.1Comparación directa contra humanos reales (n=8 × 3 piezas)En curso, junio 2026
v2.2Programa piloto con 10 PYMEs mexicanas para validar utilidad operacionalProgramado, junio-julio 2026
v3.0Expansión del panel a 25 perfiles con representación LGBT+ y diversidad indígena adicionalProgramado, Q3 2026
v3.1Modelado de turnout para escenarios políticosProgramado, Q4 2026
12 — PILOTO

Contacto piloto

El método está abierto y cualquier persona con Claude Code puede usarlo directamente desde el repositorio. Si prefieres no instalar nada y recibir el diagnóstico llave en mano, estamos abriendo cupo limitado para un programa piloto.

Cómo funciona el piloto

  • Mandas tu mensaje, anuncio, página o promoción por WhatsApp
  • Recibes diagnóstico estructurado en 48 horas con puntaje agregado, citas de los perfiles, objeciones y recomendaciones
  • Primer diagnóstico sin costo
  • Diagnósticos posteriores: $1,500 MXN por mensaje, paquete de cinco a $6,000 MXN
  • A cambio te pedimos comentarios honestos sobre la utilidad del reporte

Manda tu mensaje por WhatsApp

+52 55 2947 7307 — recibimos texto, captura de tu anuncio o liga a tu página. Si lo prefieres, también puedes mandarme un correo y agendamos una llamada de quince minutos antes.

→ Abrir WhatsApp