Le problème
L'email est le plus grand stockage de connaissances non structurées dans la plupart des organisations — et l'un des moins interrogeables. La recherche standard dans la boîte de réception fait correspondre des mots-clés avec des lignes d'objet. Elle ne peut pas comprendre le contexte, suivre une conversation sur vingt réponses, ni vous dire ce qui a été décidé dans un fil il y a trois mois. Le résultat est un schéma familier : vous savez que l'information existe, quelque part dans votre boîte de réception, mais vous ne pouvez pas la trouver. Vous passez 20 minutes à chercher une décision qui a été prise dans une chaîne d'emails. Vous transférez une question à un collègue qui ne peut pas non plus la trouver. La mémoire institutionnelle se dissout dans le bruit. Le volume d'emails aggrave le problème — le travailleur de la connaissance moyen reçoit plus de 120 emails par jour. Trouver un engagement spécifique, une discussion sur les prix, ou une décision technique devient plus difficile chaque semaine.
La solution
Nous avons construit un système de Génération Augmentée par Récupération (RAG) conçu spécialement pour les emails. Contrairement à la recherche générique, il comprend le contexte des fils, les relations entre participants et la continuité temporelle. Demandez-lui ce qui a été convenu lors de la négociation avec le fournisseur du trimestre dernier, et il trouvera le fil, lira toutes les réponses et extraira la décision clé — en citant le message exact. Le système gère l'indexation multi-comptes, la reconstruction des fils et les mises à jour en temps réel au fur et à mesure que de nouveaux emails arrivent. Il est interrogeable en langage naturel et s'intègre à votre fournisseur d'email existant sans migrer vos données.
Le pipeline
Cinq étapes transforment les données d'email brutes en une couche de connaissances interrogeable et consciente du contexte.
Ingestion et reconstruction des fils
Les emails sont récupérés via des APIs standard (Gmail, Outlook, IMAP). La reconstruction des fils assemble les chaînes de réponses en objets de conversation cohérents — préservant l'ordre des participants, la profondeur des réponses, les pièces jointes et les horodatages. C'est le différenciateur critique : nous indexons des fils, pas des messages individuels.
Prétraitement et extraction de signaux
Chaque fil est nettoyé des signatures, du texte cité et du boilerplate. Les entités — noms, dates, montants, décisions, éléments d'action — sont extraites et étiquetées comme métadonnées structurées. Cet enrichissement rend le filtrage précis : 'trouver des fils avec des décisions de prix du T4 2025' est une requête valide.
Intégration et indexation
Les fils et les messages individuels sont intégrés à l'aide d'un modèle affiné sur la communication par email. L'index stocke des intégrations au niveau du fil et du message, permettant une récupération à la bonne granularité pour chaque type de requête.
Synchronisation en temps réel
Les nouveaux emails sont indexés de façon incrémentale à leur arrivée — généralement dans les 30 secondes suivant la réception. Le système maintient un flux de changements du fournisseur d'email, traite les nouveaux messages via le pipeline complet et met à jour l'index sans ré-ingestion complète.
Requête et génération
Les requêtes en langage naturel sont comparées avec l'index. Les fils récupérés sont classés par pertinence, récence et autorité des participants. Un modèle de langage synthétise la réponse, citant les messages spécifiques dont il s'est servi. Les questions de suivi maintiennent le contexte de session tout au long de la conversation.
Capacités clés
Construit spécifiquement pour la complexité et le volume des emails organisationnels.
Compréhension au niveau du fil
Lit des fils de conversation entiers comme des objets unifiés — pas des messages isolés. Comprend le contexte des réponses, l'accord par silence et les changements de position tout au long d'un long échange.
Indexation en temps réel
Le nouvel email est interrogeable en quelques secondes après réception. Pas de traitements par lots nocturnes. Pas d'index obsolète. Ce qui est arrivé ce matin est déjà consultable.
Support multi-comptes
Indexez et interrogez plusieurs comptes email — personnels, d'équipe ou boîtes aux lettres partagées — avec un contrôle d'accès unifié. Trouvez des conversations qui s'étendent sur les frontières organisationnelles.
Requêtes temporelles
Posez des questions délimitées dans le temps : 'qu'avons-nous convenu mardi dernier avec l'agence ?' ou 'quel était le dernier prix cité à ce client ?' Le système comprend la portée temporelle de façon native.
Conscience des pièces jointes
Les pièces jointes — PDFs, tableurs, contrats — sont extraites, indexées et consultables aux côtés des messages qui les référencent. Une seule requête peut faire remonter à la fois la discussion et le document.
Limites de confidentialité
Le contrôle d'accès reflète vos autorisations email. Les utilisateurs ne peuvent interroger que les boîtes aux lettres auxquelles ils sont autorisés à accéder. Aucune donnée ne quitte votre infrastructure sauf configuration explicite.
Stack technique
Construit pour la recherche d'emails à grand volume et faible latence à l'échelle organisationnelle.
Ingestion d'emails et synchronisation en temps réel
Orchestration RAG et routage des requêtes
Index vectoriel sur PostgreSQL
Intégrations optimisées pour les emails
Couche API de requêtes
Pipeline de streaming et mise en cache
Impact
Après le déploiement, les équipes ont rapporté trouver des informations qu'elles pensaient précédemment perdues. L'intégration de nouveaux membres d'équipe est devenue significativement plus rapide — les nouvelles recrues pouvaient interroger l'historique du projet de façon autonome sans déranger les membres seniors. Les dirigeants ont utilisé le système pour se préparer aux réunions clients en interrogeant l'historique complet d'une relation en quelques minutes plutôt que des heures. Le temps de réponse pour les requêtes clients citant des engagements précédents est passé de heures à secondes. Le système a indexé plus de 500 000 fils par compte et retourné des réponses en moins de 2 secondes.
"Trois ans de négociations fournisseurs, accessibles en une question. Ça seul a changé notre façon de préparer les contrats."
Conclusion
L'email n'est pas un outil de communication — c'est un système de mémoire institutionnelle que les organisations utilisent sans couche de récupération. Ce système ajoute cette couche. Les décisions, engagements et contextes enfouis dans votre boîte de réception deviennent interrogeables, auditables et utiles. Ce qui était une friction devient un levier.