Schema Speakable y datos estructurados para la búsqueda por voz e IA (2026)

Q: ¿Qué schema importa más para la búsqueda por voz?

Para la mayoría de negocios, `FAQPage` y `LocalBusiness` aportan más que el propio Speakable. `FAQPage` empareja pregunta y respuesta en el formato exacto que el asistente lee; `LocalBusiness` resuelve las consultas locales de intención inmediata (horarios, dirección, teléfono), que son enormes en voz. Speakable refina qué frase concreta se lee, pero esos dos tipos son la base.

Cuando un asistente de voz responde en alto, no lee tu página entera: lee un fragmento. El schema Speakable es la etiqueta que le dice exactamente qué frases de tu contenido son aptas para leerse en voz alta. Marcarlas bien aumenta la probabilidad de que Alexa, Google Assistant o un asistente de IA elijan tu texto como respuesta hablada. Esta guía explica qué es Speakable, qué datos estructurados pesan en voz (LocalBusiness, FAQPage) y cómo implementarlos sin perder el tiempo en lo que no funciona.

La búsqueda por voz tiene una regla cruel: solo hay una respuesta. En una pantalla compites por estar entre diez enlaces; al hablarle a un altavoz, o eres la respuesta o no existes. Por eso la estructura de tus datos importa más aquí que en ningún otro canal: el asistente necesita extraer una frase limpia, sin ambigüedad y fácil de pronunciar.

Qué es el schema Speakable

Speakable es una propiedad de Schema.org (speakable, de tipo SpeakableSpecification) que marca las secciones de una página especialmente adecuadas para reproducirse mediante texto a voz (TTS). En lugar de dejar que el asistente adivine qué leer, tú señalas las frases candidatas: el titular, el resumen, la respuesta directa a una pregunta.

Técnicamente se añade dentro del bloque JSON-LD de un Article (o WebPage) y apunta a partes concretas del contenido mediante selectores CSS o xpath. El asistente que respeta esta marca prioriza ese texto cuando construye una respuesta hablada.

Conviene ser honesto sobre su estado: Speakable nació como una función de Google en beta, ligada a Assistant y a las noticias. Su soporte oficial nunca fue universal y sigue siendo limitado. Pero la lógica que hay detrás —marcar fragmentos cortos, autónomos y citables— es exactamente la que premian los asistentes de voz y los motores de IA hoy. Implementarlo es barato y, en el peor caso, te obliga a estructurar el contenido como debe estar para la voz.

Nota: Speakable es schema específico para voz/TTS. Si buscas la guía general de datos estructurados para IA (Article, Organization, Product, breadcrumbs…), la tienes en datos estructurados para GEO y AEO. Aquí nos centramos solo en lo que afecta a la respuesta hablada.

Cómo se implementa Speakable (JSON-LD)

La forma recomendada es el método CSS selector: marcas qué elementos de tu HTML contienen el texto apto para leerse. Un ejemplo dentro de un artículo:

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "Cómo optimizar tu web para la búsqueda por voz",
  "speakable": {
    "@type": "SpeakableSpecification",
    "cssSelector": ["#resumen-voz", "h1"]
  },
  "url": "https://tudominio.com/articulo"
}

Aquí el asistente sabe que el H1 y el bloque con id="resumen-voz" son el material a leer. Buenas prácticas al elegir esos fragmentos:

Frases cortas y autónomas. De 20 a 30 segundos de lectura como máximo (unas 2-3 frases). Nada que dependa de la frase anterior para entenderse.
Respuesta directa primero. Si la página responde una pregunta, marca la frase que la responde, no el párrafo entero.
Texto pronunciable. Evita abreviaturas raras, símbolos, URLs y tablas dentro del fragmento marcado: un TTS las lee fatal.
Coherencia con el contenido visible. El fragmento marcado debe existir tal cual en la página; no inventes texto solo para el schema.

El método alternativo (xpath) sirve cuando no tienes IDs limpios, pero el selector CSS es más robusto.

Datos estructurados que sí pesan en la búsqueda por voz

Speakable es la marca explícita, pero los asistentes de voz se apoyan en otros tipos de schema para resolver consultas habladas. Estos tres son los que más rendimiento dan.

FAQPage: la mina de oro de la voz

Las consultas por voz son preguntas en lenguaje natural («¿cuánto cuesta una auditoría GEO?», «¿a qué hora abre…?»). Una página con schema FAQPage empareja pregunta y respuesta de forma estructurada, justo el formato que un asistente necesita para responder en alto. Cada par pregunta/respuesta es una respuesta hablada potencial.

Reglas: pregunta tal cual la formularía una persona, respuesta completa en una o dos frases al inicio, y que esas preguntas y respuestas estén visibles en la página (no solo en el JSON-LD).

LocalBusiness: la voz es local

Una parte enorme de las búsquedas por voz son locales y de intención inmediata: horarios, dirección, teléfono, «cerca de mí». El schema LocalBusiness entrega esos datos en un formato que el asistente lee directamente, sin tener que rascar el HTML.

Propiedad	Para qué la usa el asistente
`name` + `address`	Identificar y ubicar el negocio en respuestas «cerca de mí»
`openingHoursSpecification`	Responder «¿está abierto ahora?» / «¿a qué hora cierra?»
`telephone`	Ofrecer «llamar» como acción de voz
`geo` (lat/long)	Cruzar con la ubicación del usuario
`priceRange` / `servesCuisine`	Filtrar en consultas tipo «restaurante barato cerca»

Sin openingHoursSpecification bien puesto, el asistente no puede responder la pregunta más frecuente de la voz local: si estás abierto.

Otros tipos útiles

HowTo: para instrucciones paso a paso, que los asistentes leen secuencialmente («siguiente paso»).
Recipe: el caso clásico de cocina por voz (tiempos, ingredientes, pasos).
Organization con sameAs: refuerza tu entidad para que el asistente confíe en quién eres (parte de construir autoridad para la IA).

Voz tradicional vs. respuestas habladas de IA

Hay que distinguir dos cosas que a menudo se mezclan, porque la optimización no es idéntica:

	Asistente de voz clásico (Alexa, Google Assistant)	Respuesta hablada de IA (ChatGPT voz, Gemini Live)
Fuente	Featured snippet / answer box, datos estructurados	Conocimiento del modelo + búsqueda en vivo
Qué premia	Schema explícito (Speakable, FAQPage, LocalBusiness)	Contenido citable, autoridad de entidad, menciones
Formato ideal	Frase exacta, marcada y pronunciable	Información clara y verificable que el modelo sintetiza
Palanca principal	Datos estructurados impecables	Presencia y autoridad en toda la web

El asistente clásico tira mucho de schema y de la posición cero. La IA conversacional por voz se parece más al GEO general: te cita si eres una fuente clara, verificable y con autoridad. La buena noticia es que ambos convergen: contenido bien estructurado, con respuestas directas y schema limpio, funciona en los dos mundos. No optimizas dos veces; haces una cosa bien.

Checklist de optimización para voz

Para que tu web sea material listo para leerse en alto:

Marca fragmentos con Speakable en tus páginas clave (H1 + resumen o respuesta directa).
Añade FAQPage con preguntas en lenguaje natural y respuestas de 1-2 frases.
Implementa LocalBusiness completo si tienes presencia física, con horarios y teléfono.
Responde la pregunta en las primeras 40-50 palabras de cada página (la voz lee el principio).
Escribe pronunciable: frases cortas, sin jerga innecesaria, sin tablas ni símbolos en el fragmento leído.
No bloquees los rastreadores de IA y buscadores en tu robots.txt: sin rastreo no hay voz.
Valida el JSON-LD con la herramienta de resultados enriquecidos antes de publicar.

Esto se solapa casi al 100 % con el checklist técnico de GEO: lo que hace tu web citable por la IA es, en gran parte, lo que la hace apta para la voz.

Conclusión

El schema Speakable no es una bala mágica —su soporte oficial es limitado—, pero representa una disciplina que sí da resultados: estructurar tu contenido en frases cortas, autónomas y pronunciables que un asistente pueda leer sin ambigüedad. Combinado con FAQPage (preguntas naturales) y LocalBusiness (datos locales completos), construye la base de datos estructurados que la búsqueda por voz necesita.

La voz castiga la imprecisión más que cualquier otro canal: o eres la única respuesta, o no apareces. Quien marca bien sus fragmentos, responde la pregunta al principio y mantiene un schema limpio juega con ventaja tanto en los asistentes clásicos como en las respuestas habladas de IA, que tienden a converger en lo mismo: claridad, autoridad y estructura. Marca el fragmento, responde directo y deja el texto listo para leerse.

Preguntas frecuentes

¿Funciona todavía el schema Speakable? Su soporte oficial es limitado y nunca fue universal (nació como beta de Google ligada a Assistant y noticias). Pero implementarlo es barato y te obliga a estructurar el contenido como la voz lo necesita: fragmentos cortos, autónomos y pronunciables. Aunque un motor concreto no lo lea, el contenido bien marcado rinde igualmente en featured snippets y respuestas de IA. El riesgo de ponerlo es casi nulo.

¿Qué schema importa más para la búsqueda por voz? Para la mayoría de negocios, FAQPage y LocalBusiness aportan más que el propio Speakable. FAQPage empareja pregunta y respuesta en el formato exacto que el asistente lee; LocalBusiness resuelve las consultas locales de intención inmediata (horarios, dirección, teléfono), que son enormes en voz. Speakable refina qué frase concreta se lee, pero esos dos tipos son la base.

¿Cómo optimizo para las respuestas habladas de la IA (ChatGPT, Gemini)? La IA conversacional por voz se parece más al GEO general que al asistente clásico: te cita si eres una fuente clara, verificable y con autoridad, no por una etiqueta concreta. Responde la pregunta al principio, escribe en bloques autónomos, construye autoridad de entidad y consigue menciones en webs independientes. El schema ayuda a que te entienda, pero la palanca real es la autoridad y la claridad.

¿Speakable es lo mismo que el schema general para IA? No. Speakable es específico para voz y TTS: marca qué frases leer en alto. El schema general para IA (Article, Organization, Product, breadcrumbs, Author) sirve para que los motores entiendan tu contenido y tu entidad en cualquier formato, no solo hablado. Lo cubrimos por separado en la guía de datos estructurados para GEO y AEO. Lo ideal es usar ambos: el general como base y Speakable encima para los fragmentos de voz.

¿Quieres que la IA y los asistentes de voz lean tu marca? Empieza por el checklist técnico para optimizar tu web y revisa cómo aparecer en la IA según cada motor. Si quieres saber qué frena hoy tu visibilidad, solicita una auditoría GEO y te decimos dónde actuar primero.

Última actualización: junio de 2026. Esta guía forma parte de nuestro contenido sobre posicionamiento en IA y se revisa periódicamente conforme evolucionan los asistentes de voz y los motores generativos.