Analizar 100 entrevistas sin que la IA empiece a alucinar
Volver a Insights
Producto QUALLEE

Analizar 100 entrevistas sin que la IA empiece a alucinar

Cómo base de datos vectorial, grafo de conocimiento y LLM trabajan juntos en QUALLEE

QUALLEE combina tres tecnologías especializadas para el análisis de grandes volúmenes de entrevistas: una base de datos vectorial para búsqueda semántica, un grafo de conocimiento para relaciones y estructuras, y un modelo de lenguaje que solo analiza basándose en datos anclados. Esta arquitectura disruptiva permite analizar 20, 50 o 100 entrevistas con la misma precisión que 5 – sin alucinaciones, sin perder contexto, con referencias a fuentes trazables. Aquí explicamos cómo funciona, sin ser demasiado técnicos ni abstractos.


La declaración existe, estás seguro. La escuchaste cuando realizaste la entrevista. Algo sobre el momento en que la participante casi renuncia. Ahora, tres semanas después, frente a 400 páginas de transcripción: imposible. Ctrl+F no ayuda porque no recuerdas la palabra exacta. ¿Era "confianza"? ¿"Escepticismo"? ¿"Insegura"? Probablemente lo expresó de manera completamente diferente.

Ese fue nuestro problema inicial. No solo "cómo hacemos la investigación cualitativa más rápida", sino: ¿Cómo encuentras lo que buscas en una montaña de transcripciones sin conocer las palabras exactas? ¿Y cómo te aseguras de que la IA que te ayuda no empiece a inventar cosas?

Por qué un solo modelo de IA no es suficiente

La solución obvia sería darle todo a un modelo de lenguaje como GPT de OpenAI o Claude de Anthropic y hacer preguntas. Ya con dos o tres entrevistas empiezan a alucinar. Con ocho o doce, se desmorona.

Los modelos de lenguaje tienen una ventana de contexto: la cantidad máxima de texto que pueden procesar simultáneamente. Una entrevista de una hora, transcrita, produce aproximadamente 8,000 a 10,000 palabras. Con 40 entrevistas, llegas a 400,000 palabras. Incluso los modelos más grandes con ventanas de contexto de 200,000 tokens no pueden manejarlo, y cuando lo intentan, algo peligroso sucede: Omiten completamente cosas importantes, empiezan a inventar cosas. Confunden participantes y ven patrones que no existen. Y lo peor: Todo suena plausible, coherente y analizado con precisión.

En lugar de lanzar todo a la IA, podrías hacer que resuma las transcripciones de antemano, o hacerlo tú mismo. Pero un resumen ya es una interpretación. Pierdes las citas textuales, los matices, el contexto. Pero eso es exactamente lo que hace valiosa y relevante la investigación cualitativa.

Los tres sistemas y sus tareas

Construimos una arquitectura con tres tecnologías especializadas. Cada una resuelve un problema diferente. Y juntas crean algo que ninguna podría hacer sola.

SYSTEM 01

Base de datos vectorial

Búsqueda semántica

Encuentra significados, no solo palabras. Reconoce sinónimos como «frustrado» y «molesto».

Declaraciones relevantes
SYSTEM 02

Knowledge Graph

Relaciones & Estructuras

Conecta Quién con Qué y Cómo. Revela conexiones entre temas y hablantes.

Estructura & Contexto
SYSTEM 03

LLM anclado

Análisis & Interpretación

Analiza solo con base en datos verificados. Previene alucinaciones.

Insights verificados

La sinergia en el chat de análisis: Precisión a cualquier escala

Analiza 20, 50 o 100 entrevistas con la misma precisión que cinco.

Cumple con RGPD

Sistema 1: Base de datos vectorial – encuentra declaraciones por significado, no por palabras.

Sistema 2: Grafo de conocimiento – almacena quién dijo qué y cómo se conectan los temas.

Sistema 3: LLM con anclaje – analiza e interpreta, pero solo basándose en lo que los otros dos proporcionan.

Eso suena abstracto. Permíteme mostrarte a través de tres proyectos concretos qué hace cada sistema y por qué necesitas los tres.

Caso 1: Telecomunicaciones: ¿Por qué cambian los clientes?

Un operador móvil quiere entender por qué los clientes se van a la competencia. 35 entrevistas con antiguos clientes que cancelaron.

Lo que encuentra la base de datos vectorial:

Preguntas: "¿Qué papel jugó el servicio al cliente en el cambio?"

Ctrl+F para "servicio al cliente" da 12 resultados. La búsqueda semántica encuentra 29, incluyendo "me dejaron esperando una eternidad", "nadie en el teléfono podía ayudarme" y "conté la misma historia tres veces". Todo relevante, pero ni una sola vez aparece la palabra "servicio al cliente".

Lo que añade el grafo de conocimiento:

La búsqueda encuentra declaraciones. ¿Pero quién las hizo? El grafo sabe: 23 de las 39 declaraciones provienen de clientes que llevaban más de 5 años. En nuevos clientes con menos de un año, el tema apenas aparece. El grafo también sabe: La mayoría de los que mencionan problemas de servicio también mencionan aumentos de precio en la misma entrevista. Los temas están conectados.

Lo que el modelo de lenguaje hace con esto:

Recibe las 29 declaraciones más la información estructural del grafo. Su respuesta: "Los problemas de servicio son citados principalmente como razón para cambiar por clientes de larga duración (23 de 34 declaraciones). En este grupo, los problemas de servicio ocurren frecuentemente junto con aumentos de precio, sugiriendo una conexión entre la apreciación percibida y la aceptación de precios."

Al lado: las citas originales que apoyan esta interpretación.

Caso 2: Sostenibilidad: ¿Qué significa "sostenible" para ti?

Un fabricante de bienes de consumo quiere mejorar su mensaje de sostenibilidad. 45 entrevistas con clientes de varios grupos de edad.

Lo que encuentra la base de datos vectorial:

Preguntas por "sostenibilidad". La búsqueda naturalmente encuentra a todos los que usan la palabra. Pero también: "es importante para mí que dure mucho", "no quiero estar comprando cosas nuevas constantemente", "menos plástico estaría bien", "deberían pensar en mis nietos". Significado similar, expresiones completamente diferentes.

Lo que añade el grafo de conocimiento:

Los significados son similares, pero el grafo muestra: Son temas diferentes. "Durabilidad" es mencionada por 28 participantes, "empaque" por 15, "impacto ambiental" por 22, "equidad intergeneracional" por 8. Algunos se superponen: 12 participantes hablan tanto de durabilidad como de empaque. Otros no: La equidad intergeneracional aparece casi exclusivamente en mayores de 50 años.

Lo que el modelo de lenguaje hace con esto:

Reconoce que "sostenibilidad" significa cosas diferentes para diferentes grupos objetivo. El análisis distingue entre sostenibilidad pragmática (durabilidad, reparabilidad) y sostenibilidad basada en valores (medio ambiente, generaciones). Con referencias a fuentes que puedes verificar.

Caso 3: Aceptación de IA: ¿Por qué algunas personas rechazan la IA?

Una empresa quiere introducir herramientas de IA y no entiende por qué parte del personal es escéptico. 35 entrevistas con empleados de varios departamentos.

Lo que encuentra la base de datos vectorial:

Preguntas por "preocupaciones sobre la IA". La búsqueda vectorial encuentra las obvias ("no confío en eso") y las ocultas ("¿quién controla esto realmente?", "¿qué pasa con mis datos?", "esto hará mi trabajo obsoleto"). Todas son preocupaciones, ninguna usa la palabra.

Lo que añade el grafo de conocimiento:

El grafo muestra clusters: Las preocupaciones de privacidad vienen de IT y Legal, los miedos al empleo vienen de administración y servicio al cliente, los temas de pérdida de control atraviesan todos los departamentos. También muestra conexiones: Quienes expresan preocupaciones de privacidad raramente expresan miedos al empleo, y viceversa. Son grupos diferentes con problemas diferentes.

Lo que el modelo de lenguaje hace con esto:

Identifica tres perfiles de escépticos distintos con diferentes motivaciones y puede proporcionar declaraciones concretas y citas específicas como evidencia para cada uno. La recomendación: diferentes estrategias de comunicación para diferentes grupos.

¿Qué es exactamente una base de datos vectorial?

Explicación técnica:

Una base de datos vectorial almacena texto no como cadenas de caracteres, sino como vectores – listas de números que representan el significado del texto. Estos vectores son generados por modelos de embedding entrenados en miles de millones de textos. Dos textos con significado similar tienen vectores similares, incluso cuando usan palabras completamente diferentes.

Las bases de datos vectoriales conocidas incluyen Qdrant (código abierto, desarrollada por una empresa berlinesa, compatible con RGPD), Pinecone (basada en la nube), Weaviate (código abierto) y Milvus (código abierto, especializada en grandes volúmenes de datos). Pero incluso los motores de búsqueda léxicos clásicos como Solr o ElasticSearch se han puesto al día e integrado búsqueda semántica.

Cuando haces una consulta de búsqueda, también se convierte en un vector. La base de datos entonces compara este vector con todos los vectores almacenados y devuelve los de mayor similitud. Esto se llama "Búsqueda aproximada del vecino más cercano" y funciona en milisegundos incluso con millones de entradas.

"Eso es demasiado técnico para mí"

Imagina que cada frase obtiene una posición en un enorme mapa de significados. Las frases sobre frustración aterrizan en el "área de frustración", ya digan "frustrado", "molesto" o "al límite". Cuando buscas, tu pregunta también aterriza en algún lugar de este mapa, y el sistema te muestra todo lo que está cerca.

Es como Spotify recomendando canciones que "suenan similar a" tu canción favorita – pero para el significado del texto en lugar de música.

Lo que la base de datos vectorial no puede hacer:

Encuentra declaraciones similares pero no entiende relaciones. No sabe quién dijo la frase, en qué contexto, qué otros temas surgieron en la misma entrevista. Encuentra similitud semántica, pero no estructura.

¿Y qué es exactamente un grafo de conocimiento?

Explicación técnica:

Un grafo de conocimiento almacena las llamadas entidades (participantes, entrevistas, temas, declaraciones) y las relaciones entre ellas. La estructura de datos consiste en nodos y aristas. Un nodo podría ser "Participante Anna", otro "Tema Privacidad de Datos", y la arista entre ellos dice "mencionó".

La base de datos de grafos más conocida es Neo4j (comercial y Community Edition de código abierto), que usa su propio lenguaje de consulta llamado Cypher. Otras opciones incluyen Amazon Neptune, ArangoDB o FalkorDB.

Puedes hacer preguntas como "¿Qué participantes mencionaron tanto el Tema A como el Tema B?" o "¿Qué temas aparecen frecuentemente juntos?" o "¿Cuántos participantes del Departamento X mencionaron el Tema Y?" Estas son preguntas estructurales, no preguntas de texto.

Una comparación

Imagina una red de relaciones, como en una serie de crimen en la pared. Fotos de personas, lugares, eventos, conectados por hilos rojos que miras durante horas, días, semanas, toda la temporada. El grafo es esta pared, solo que digital y buscable. Puedes preguntar: "¿Quién estaba en la escena del crimen Y conocía a la víctima Y tiene un motivo?" El grafo encuentra las conexiones.

Es como LinkedIn mostrándote a cuántos grados de distancia conoces a alguien – pero para datos de investigación en lugar de contactos.

Los límites de un grafo de conocimiento

No puede encontrar declaraciones similares cuando usan palabras diferentes. Solo conoce lo que fue explícitamente ingresado. "Frustración" y "molesto" son dos palabras diferentes sin conexión para él, a menos que alguien las haya vinculado o el sistema las haya asignado automáticamente al mismo tema. Por eso la combinación con búsqueda semántica es tan poderosa.

Por qué necesitas ambos

La base de datos vectorial encuentra lo que es semánticamente similar, incluso más allá de las fronteras de elección de palabras. Pero no sabe quién lo dijo ni cómo se conectan los temas.

El grafo de conocimiento conoce todas las relaciones y estructuras. Pero no puede encontrar declaraciones que usan palabras diferentes.

CapacidadBase VectorialGrafo de Conocimiento
Encuentra "molesto" cuando buscas "frustrado"
Sabe quién hizo la declaración
Encuentra clusters de temas
Entiende formulaciones sinónimas
Muestra relaciones entre temas
Funciona sin categorías predefinidas

Solo juntos crean un sistema que tanto encuentra declaraciones semánticamente similares como sabe quién las hizo y cómo se conectan los temas. La base de datos vectorial proporciona los hallazgos relevantes. El grafo proporciona el contexto.

El modelo de lenguaje entonces recibe ambos: declaraciones relevantes e información estructural. Su tarea es interpretación – pero solo basándose en lo que se le da. No puede inventar nada porque no tiene acceso a material inventado.

Lo que obtienes de esto

Encuentras lo que buscas. Incluso cuando los participantes usaron palabras diferentes. Incluso en 100 entrevistas.

Entiendes la estructura. No solo "el tema aparece", sino: con qué frecuencia, con quién, en qué conexión con otros temas.

Puedes verificar. Cada declaración del sistema referencia citas originales. No tienes que creer, puedes verificar. Esto es crucial cuando necesitas defender resultados ante stakeholders.

Ahorras tiempo. La arquitectura hace en minutos lo que tomaría días manualmente: buscar todos los entrevistas por un tema, reconocer patrones entre grupos de participantes, encontrar conexiones entre temas.

Limitaciones

La similitud semántica no es siempre lo que necesitas. A veces buscas contradicciones, excepciones, esa única entrevista que va contra el patrón. Para eso, necesitas preguntar diferente. Y para eso, desarrollamos nuestra búsqueda inteligente, híbrida, potenciada por IA.

El grafo de conocimiento es tan bueno como la extracción automática de temas. Si se pierde un tema, falta en el grafo. Mejoramos esto continuamente para ti; la perfección no existe.

Y el modelo de lenguaje sigue siendo un modelo de lenguaje. La ironía sutil, el contexto cultural, lo no dicho: todo eso puede pasarse por alto. La interpretación final queda contigo, donde pertenece. Desarrollamos el chat de análisis para ti, donde puedes hacer tus preguntas relevantes para profundizar en lo que tu investigación necesita.

Preguntas frecuentes

¿Qué distingue esta arquitectura de ChatGPT con carga de documentos?

ChatGPT con carga de documentos usa solo un sistema: el modelo de lenguaje mismo. No tiene conocimiento separado sobre quién dijo qué o cómo se conectan los temas. Con grandes volúmenes de datos (es decir, más de cinco entrevistas), empieza a mezclar o inventar información. Nuestra arquitectura separa búsqueda (base vectorial), estructura (grafo) e interpretación (LLM), permitiendo que cada componente contribuya su fortaleza.

¿Necesito conocimientos técnicos para usar el sistema?

No. La arquitectura técnica funciona en segundo plano. Interactúas con la interfaz de chat de QUALLEE, haces preguntas en lenguaje natural y obtienes respuestas relevantes y basadas en hechos. No necesitas saber qué es un vector ni cómo escribir consultas Cypher.

¿Cuántas entrevistas puede procesar el sistema?

La arquitectura escala teóricamente sin límites. En la práctica, hemos trabajado con hasta 150 entrevistas por proyecto. El factor limitante no es la tecnología, sino la calidad de la extracción automática de temas, que debería ser revisada manualmente para volúmenes muy grandes.

¿Puedo subir mis propias transcripciones a QUALLEE?

Sí, puedes subir y analizar transcripciones. Nuestro sistema las segmenta automáticamente, genera embeddings y construye el grafo de conocimiento. Alternativamente, también puedes usar las entrevistas de IA de QUALLEE, donde la transcripción y estructuración ocurren automáticamente. Bonito efecto secundario: Esto valida la calidad de los resultados. Te prometemos: Después de solo cinco entrevistas, estarás sorprendido.

¿Cómo se diferencia esto del software QDA tradicional como MAXQDA o Atlas.ti?

El software QDA tradicional se basa en codificación manual: Lees cada texto y asignas códigos. Eso es preciso pero consume tiempo. QUALLEE automatiza la extracción de temas y permite búsqueda semántica en todas las entrevistas. Puedes hacer preguntas en lugar de asignar códigos. Ambos enfoques tienen su lugar; QUALLEE es especialmente útil cuando tienes muchas entrevistas y quieres reconocer patrones rápidamente.

¿Se usan mis datos para entrenar IA?

No. Tus datos de entrevistas se usan exclusivamente para tu análisis. No fluyen hacia el entrenamiento de modelos de lenguaje. La base de datos vectorial y el grafo de conocimiento existen solo para tu proyecto y se eliminan completamente bajo petición. Y todos los datos se cifran automáticamente.

¿Dónde almacenáis mis datos en vuestra base de datos vectorial y de grafos?

Utilizamos exclusivamente software y componentes de código abierto que operamos en nuestros propios servidores en Alemania.

Pruébalo tú mismo

¿Quieres ver cómo se siente? Inicia un proyecto de prueba, sube tus propias transcripciones o deja que la IA realice entrevistas. Luego puedes probar el chat de análisis. Notarás cómo es cuando las respuestas referencian fuentes concretas que puedes verificar.

Como mencionamos, tal sistema es un sistema vivo que constantemente ajustamos y optimizamos. Danos tu feedback y ayúdanos a hacerlo aún mejor de lo que ya es.

Pruébalo ahora →

Marcus Völkel
Compartir artículo

Artículos relacionados

Analizar 100 entrevistas sin que la IA empiece a alucinar | QUALLEE