QUALLEE combine trois technologies spécialisées pour l'analyse de grands volumes d'entretiens : une base de données vectorielle pour la recherche sémantique, un graphe de connaissances pour les relations et les structures, et un modèle de langage qui n'analyse que sur la base de données ancrées. Cette architecture disruptive permet d'analyser 20, 50 ou 100 entretiens aussi précisément que 5 – sans hallucinations, sans perte de contexte, avec des références sources traçables. Nous expliquons ici comment cela fonctionne, sans être trop technique ni abstrait.
La déclaration existe, vous en êtes sûr. Vous l'avez entendue lors de l'entretien. Quelque chose sur le moment où la participante a failli démissionner. Maintenant, trois semaines plus tard, face à 400 pages de transcription : aucune chance. Ctrl+F n'aide pas car vous ne vous souvenez pas du mot exact. Était-ce « confiance » ? « Scepticisme » ? « Incertain » ? Elle l'a probablement formulé tout autrement.
C'était notre problème de départ. Pas seulement « comment rendre la recherche qualitative plus rapide », mais : Comment trouvez-vous ce que vous cherchez dans une montagne de transcriptions sans connaître les mots exacts ? Et comment vous assurez-vous que l'IA qui vous aide ne commence pas à inventer des choses ?
Pourquoi un seul modèle d'IA ne suffit pas
La solution évidente serait de tout donner à un modèle de langage comme GPT d'OpenAI ou Claude d'Anthropic et de poser des questions. Ils commencent à halluciner dès deux ou trois entretiens. À huit ou douze, tout s'effondre.
Les modèles de langage ont une fenêtre de contexte : la quantité maximale de texte qu'ils peuvent traiter simultanément. Un entretien d'une heure, transcrit, donne environ 8 000 à 10 000 mots. Avec 40 entretiens, vous atteignez 400 000 mots. Même les plus grands modèles avec une fenêtre de contexte de 200 000 tokens n'y arrivent pas, et quand ils essaient, quelque chose de dangereux se produit : ils omettent complètement des éléments importants, ils commencent à inventer des choses. Ils confondent les participants et voient des patterns qui n'existent pas. Et le pire : tout cela semble plausible, cohérent et analysé avec précision.
Au lieu de tout jeter à l'IA, on pourrait lui faire résumer les transcriptions au préalable, ou le faire soi-même. Mais un résumé est déjà une interprétation. Vous perdez les citations textuelles, les nuances, le contexte. Mais c'est exactement ce qui fait la valeur et la pertinence de la recherche qualitative.
Les trois systèmes et leurs tâches
Nous avons construit une architecture avec trois technologies spécialisées. Chacune résout un problème différent. Et ensemble, elles créent quelque chose qu'aucune ne pourrait faire seule.
Base vectorielle
Recherche sémantique
Trouve des significations, pas seulement des mots. Reconnaît les synonymes comme « frustré » et « agacé ».
Knowledge Graph
Relations & Structures
Relie Qui avec Quoi et Comment. Révèle les connexions entre sujets et intervenants.
LLM ancré
Analyse & Interprétation
Analyse uniquement sur la base de données vérifiées. Empêche les hallucinations.
La synergie dans le chat d'analyse : Précision à toute échelle
Analysez 20, 50 ou 100 entretiens avec la même précision que cinq.
Conforme RGPDSystème 1 : Base de données vectorielle – trouve des déclarations par sens, pas par mots.
Système 2 : Graphe de connaissances – stocke qui a dit quoi et comment les sujets sont connectés.
Système 3 : LLM avec ancrage – analyse et interprète, mais uniquement sur la base de ce que les deux autres fournissent.
Cela semble abstrait. Laissez-moi vous montrer à travers trois projets concrets ce que fait chaque système et pourquoi vous avez besoin des trois.
Cas 1 : Télécommunications : Pourquoi les clients changent-ils ?
Un opérateur mobile veut comprendre pourquoi les clients partent chez la concurrence. 35 entretiens avec d'anciens clients ayant résilié.
Ce que trouve la base de données vectorielle :
Vous demandez : « Quel rôle le service client a-t-il joué dans le changement ? »
Ctrl+F pour « service client » donne 12 résultats. La recherche sémantique en trouve 29, dont « ils m'ont fait attendre une éternité », « personne au téléphone ne pouvait m'aider » et « j'ai raconté la même histoire trois fois ». Tout est pertinent, mais pas une seule fois le mot « service client » n'apparaît.
Ce que le graphe de connaissances ajoute :
La recherche trouve des déclarations. Mais qui les a faites ? Le graphe sait : 23 des 39 déclarations proviennent de clients fidèles depuis plus de 5 ans. Chez les nouveaux clients de moins d'un an, le sujet apparaît à peine. Le graphe sait aussi : la plupart de ceux qui mentionnent des problèmes de service mentionnent aussi des augmentations de prix dans le même entretien. Les sujets sont liés.
Ce que le modèle de langage en fait :
Il reçoit les 29 déclarations plus les informations structurelles du graphe. Sa réponse : « Les problèmes de service sont principalement cités comme raison de changement par les clients de longue date (23 sur 34 déclarations). Dans ce groupe, les problèmes de service surviennent fréquemment avec des augmentations de prix, suggérant un lien entre la reconnaissance perçue et l'acceptation des prix. »
À côté : les citations originales soutenant cette interprétation.
Cas 2 : Durabilité : Que signifie « durable » pour vous ?
Un fabricant de biens de consommation veut améliorer son message sur la durabilité. 45 entretiens avec des clients de différentes tranches d'âge.
Ce que trouve la base de données vectorielle :
Vous demandez « durabilité ». La recherche trouve naturellement tous ceux qui utilisent le mot. Mais aussi : « c'est important pour moi que ça dure longtemps », « je ne veux pas racheter constamment », « moins de plastique serait bien », « ils devraient penser à mes petits-enfants ». Sens similaire, formulation complètement différente.
Ce que le graphe de connaissances ajoute :
Les sens sont similaires, mais le graphe montre : ce sont des sujets différents. « Longévité » est mentionnée par 28 participants, « emballage » par 15, « impact environnemental » par 22, « équité intergénérationnelle » par 8. Certains se chevauchent : 12 participants parlent à la fois de longévité et d'emballage. D'autres non : l'équité intergénérationnelle apparaît presque exclusivement chez les plus de 50 ans.
Ce que le modèle de langage en fait :
Il reconnaît que « durabilité » signifie différentes choses pour différents groupes cibles. L'analyse distingue entre durabilité pragmatique (longévité, réparabilité) et durabilité basée sur les valeurs (environnement, générations). Avec des références sources que vous pouvez vérifier.
Cas 3 : Acceptation de l'IA : Pourquoi certaines personnes rejettent-elles l'IA ?
Une entreprise veut introduire des outils d'IA et ne comprend pas pourquoi une partie du personnel est sceptique. 35 entretiens avec des employés de différents départements.
Ce que trouve la base de données vectorielle :
Vous demandez « préoccupations concernant l'IA ». La recherche vectorielle trouve les évidentes (« je ne fais pas confiance ») et les cachées (« qui contrôle vraiment ça ? », « que se passe-t-il avec mes données ? », « ça va rendre mon travail obsolète »). Toutes des préoccupations, aucune n'utilise le mot.
Ce que le graphe de connaissances ajoute :
Le graphe montre des clusters : les préoccupations de confidentialité viennent de l'IT et du juridique, les craintes pour l'emploi viennent de l'administration et du service client, les thèmes de perte de contrôle traversent tous les départements. Il montre aussi des connexions : ceux qui expriment des préoccupations de confidentialité expriment rarement des craintes pour l'emploi, et vice versa. Ce sont des groupes différents avec des problèmes différents.
Ce que le modèle de langage en fait :
Il identifie trois profils de sceptiques distincts avec différents moteurs et peut fournir des déclarations concrètes et des citations spécifiques comme preuves pour chacun. La recommandation : différentes stratégies de communication pour différents groupes.
Qu'est-ce qu'une base de données vectorielle exactement ?
Explication technique :
Une base de données vectorielle stocke le texte non pas comme des chaînes de caractères, mais comme des vecteurs – des listes de nombres représentant le sens du texte. Ces vecteurs sont générés par des modèles d'embedding entraînés sur des milliards de textes. Deux textes de sens similaire ont des vecteurs similaires, même s'ils utilisent des mots complètement différents.
Les bases de données vectorielles connues incluent Qdrant (open source, développée par une entreprise berlinoise, conforme au RGPD), Pinecone (basée sur le cloud), Weaviate (open source) et Milvus (open source, spécialisée pour les grands volumes de données). Mais même les moteurs de recherche lexicaux classiques comme Solr ou ElasticSearch ont rattrapé leur retard et intégré la recherche sémantique.
Lorsque vous faites une requête de recherche, elle est également convertie en vecteur. La base de données compare ensuite ce vecteur avec tous les vecteurs stockés et renvoie ceux ayant la plus haute similarité. C'est ce qu'on appelle la « recherche approximative du plus proche voisin » et fonctionne en millisecondes même avec des millions d'entrées.
« C'est trop technique pour moi »
Imaginez que chaque phrase obtient une position sur une immense carte des sens. Les phrases sur la frustration atterrissent dans la « zone de frustration », qu'elles disent « frustré », « agacé » ou « au bout du rouleau ». Quand vous cherchez, votre question atterrit aussi quelque part sur cette carte, et le système vous montre tout ce qui est à proximité.
C'est comme Spotify recommandant des chansons qui « ressemblent à » votre chanson préférée – mais pour le sens du texte au lieu de la musique.
Ce que la base de données vectorielle ne peut pas faire :
Elle trouve des déclarations similaires mais ne comprend pas les relations. Elle ne sait pas qui a dit la phrase, dans quel contexte, quels autres sujets ont été abordés dans le même entretien. Elle trouve la similarité sémantique, mais pas la structure.
Et qu'est-ce qu'un graphe de connaissances exactement ?
Explication technique :
Un graphe de connaissances stocke ce qu'on appelle des entités (participants, entretiens, sujets, déclarations) et les relations entre elles. La structure de données se compose de nœuds et d'arêtes. Un nœud pourrait être « Participante Anna », un autre « Sujet Protection des données », et l'arête entre eux dit « a mentionné ».
La base de données graphe la plus connue est Neo4j (commerciale et Community Edition open source), qui utilise son propre langage de requête appelé Cypher. D'autres options incluent Amazon Neptune, ArangoDB ou FalkorDB.
Vous pouvez poser des questions comme « Quels participants ont mentionné à la fois le Sujet A et le Sujet B ? » ou « Quels sujets apparaissent fréquemment ensemble ? » ou « Combien de participants du Département X ont mentionné le Sujet Y ? » Ce sont des questions structurelles, pas des questions textuelles.
Une comparaison
Imaginez un réseau de relations, comme dans une série policière sur le mur. Photos de personnes, de lieux, d'événements, reliées par des fils rouges qu'on fixe pendant des heures, des jours, des semaines, toute la saison. Le graphe est ce mur, juste numérique et recherchable. Vous pouvez demander : « Qui était sur la scène du crime ET connaissait la victime ET a un mobile ? » Le graphe trouve les connexions.
C'est comme LinkedIn vous montrant à combien de degrés vous connaissez quelqu'un – mais pour les données de recherche au lieu des contacts.
Les limites d'un graphe de connaissances
Il ne peut pas trouver de déclarations similaires quand elles utilisent des mots différents. Il ne connaît que ce qui a été explicitement entré. « Frustration » et « agacé » sont deux mots différents sans connexion pour lui, à moins que quelqu'un ne les ait liés ou que le système ne les ait automatiquement assignés au même sujet. C'est pourquoi la combinaison avec la recherche sémantique est si puissante.
Pourquoi vous avez besoin des deux
La base de données vectorielle trouve ce qui est sémantiquement similaire, même au-delà des frontières du choix des mots. Mais elle ne sait pas qui l'a dit ni comment les sujets sont connectés.
Le graphe de connaissances connaît toutes les relations et structures. Mais il ne peut pas trouver de déclarations qui utilisent des mots différents.
| Capacité | Base vectorielle | Graphe de connaissances |
|---|---|---|
| Trouve « agacé » quand vous cherchez « frustré » | ✓ | ✗ |
| Sait qui a fait la déclaration | ✗ | ✓ |
| Trouve des clusters de sujets | ✗ | ✓ |
| Comprend les formulations synonymes | ✓ | ✗ |
| Montre les relations entre sujets | ✗ | ✓ |
| Fonctionne sans catégories prédéfinies | ✓ | ✗ |
Ce n'est qu'ensemble qu'ils créent un système qui trouve à la fois des déclarations sémantiquement similaires et sait qui les a faites et comment les sujets sont connectés. La base de données vectorielle fournit les résultats pertinents. Le graphe fournit le contexte.
Le modèle de langage reçoit ensuite les deux : déclarations pertinentes et informations structurelles. Sa tâche est l'interprétation – mais uniquement sur la base de ce qui lui est donné. Il ne peut rien inventer car il n'a pas accès à du matériel inventé.
Ce que vous en retirez
Vous trouvez ce que vous cherchez. Même quand les participants ont utilisé des mots différents. Même dans 100 entretiens.
Vous comprenez la structure. Pas seulement « le sujet apparaît », mais : combien de fois, chez qui, en relation avec quels autres sujets.
Vous pouvez vérifier. Chaque déclaration du système référence des citations originales. Vous n'avez pas à croire, vous pouvez vérifier. C'est crucial quand vous devez défendre des résultats devant des parties prenantes.
Vous gagnez du temps. L'architecture fait en minutes ce qui prendrait des jours manuellement : rechercher tous les entretiens pour un sujet, reconnaître des patterns entre groupes de participants, trouver des connexions entre sujets.
Limites
La similarité sémantique n'est pas toujours ce dont vous avez besoin. Parfois vous cherchez des contradictions, des exceptions, le seul entretien qui va contre le pattern. Pour cela, vous devez questionner différemment. Et pour cela, nous avons développé notre recherche intelligente, hybride, alimentée par l'IA.
Le graphe de connaissances n'est aussi bon que l'extraction automatique de sujets. S'il manque un sujet, il manque dans le graphe. Nous améliorons continuellement cela pour vous ; la perfection n'existe pas.
Et le modèle de langage reste un modèle de langage. L'ironie subtile, le contexte culturel, le non-dit : tout cela peut être manqué. L'interprétation finale reste entre vos mains, là où elle doit être. Nous avons développé le chat d'analyse pour vous, où vous pouvez poser vos questions pertinentes pour approfondir ce dont votre recherche a besoin.
Questions fréquentes
Qu'est-ce qui distingue cette architecture de ChatGPT avec téléchargement de documents ?
ChatGPT avec téléchargement de documents n'utilise qu'un seul système : le modèle de langage lui-même. Il n'a pas de connaissance séparée sur qui a dit quoi ou comment les sujets sont connectés. Avec de grands volumes de données (c'est-à-dire plus de cinq entretiens), il commence à mélanger ou inventer des informations. Notre architecture sépare la recherche (base vectorielle), la structure (graphe) et l'interprétation (LLM), permettant à chaque composant de contribuer sa force.
Ai-je besoin de connaissances techniques pour utiliser le système ?
Non. L'architecture technique fonctionne en arrière-plan. Vous interagissez avec l'interface de chat QUALLEE, posez des questions en langage naturel et obtenez des réponses pertinentes et factuelles. Vous n'avez pas besoin de savoir ce qu'est un vecteur ni comment écrire des requêtes Cypher.
Combien d'entretiens le système peut-il traiter ?
L'architecture évolue théoriquement sans limite. En pratique, nous avons travaillé avec jusqu'à 150 entretiens par projet. Le facteur limitant n'est pas la technologie, mais la qualité de l'extraction automatique de sujets, qui devrait être vérifiée manuellement pour de très grands volumes.
Puis-je télécharger mes propres transcriptions sur QUALLEE ?
Oui, vous pouvez télécharger et analyser des transcriptions. Notre système les segmente automatiquement, génère des embeddings et construit le graphe de connaissances. Alternativement, vous pouvez aussi utiliser les entretiens IA de QUALLEE, où la transcription et la structuration se font automatiquement. Bel effet secondaire : cela valide la qualité des résultats. Nous vous promettons : après seulement cinq entretiens, vous serez surpris.
En quoi cela diffère-t-il des logiciels QDA traditionnels comme MAXQDA ou Atlas.ti ?
Les logiciels QDA traditionnels sont basés sur le codage manuel : vous lisez chaque texte et assignez des codes. C'est précis mais chronophage. QUALLEE automatise l'extraction de sujets et permet la recherche sémantique sur tous les entretiens. Vous pouvez poser des questions au lieu d'assigner des codes. Les deux approches ont leur place ; QUALLEE est particulièrement utile quand vous avez beaucoup d'entretiens et voulez reconnaître rapidement des patterns.
Mes données sont-elles utilisées pour l'entraînement de l'IA ?
Non. Vos données d'entretien sont utilisées exclusivement pour votre analyse. Elles ne contribuent pas à l'entraînement des modèles de langage. La base de données vectorielle et le graphe de connaissances n'existent que pour votre projet et sont complètement supprimés sur demande. Et toutes les données sont automatiquement chiffrées.
Où stockez-vous mes données dans votre base de données vectorielle et graphe ?
Nous utilisons exclusivement des logiciels et composants open source que nous exploitons sur nos propres serveurs en Allemagne.
Essayez par vous-même
Vous voulez voir ce que ça fait ? Démarrez un projet de test, téléchargez vos propres transcriptions ou laissez l'IA mener des entretiens. Ensuite, vous pouvez tester le chat d'analyse. Vous remarquerez ce que c'est quand les réponses référencent des sources concrètes que vous pouvez vérifier.
Comme mentionné, un tel système est un système vivant que nous ajustons et optimisons constamment. Donnez-nous votre feedback et aidez-nous à le rendre encore meilleur qu'il ne l'est déjà.


