Prendre un RDV gratuit
Systèmes IA

Repenser la recherche d'emails : un système de génération augmentée par récupération

Votre boîte de réception contient des années de mémoire institutionnelle. Nous avons construit un système qui vous permet de l'interroger comme une base de données — à travers des fils, des comptes et le temps — en langage naturel.

<2s

Temps de réponse aux requêtes

91%

Rappel de fils pertinents

500k+

Fils indexés par compte

Équipe VIVIA
8 min de lecture

Le problème

L'email est le plus grand stockage de connaissances non structurées dans la plupart des organisations — et l'un des moins interrogeables. La recherche standard dans la boîte de réception fait correspondre des mots-clés avec des lignes d'objet. Elle ne peut pas comprendre le contexte, suivre une conversation sur vingt réponses, ni vous dire ce qui a été décidé dans un fil il y a trois mois. Le résultat est un schéma familier : vous savez que l'information existe, quelque part dans votre boîte de réception, mais vous ne pouvez pas la trouver. Vous passez 20 minutes à chercher une décision qui a été prise dans une chaîne d'emails. Vous transférez une question à un collègue qui ne peut pas non plus la trouver. La mémoire institutionnelle se dissout dans le bruit. Le volume d'emails aggrave le problème — le travailleur de la connaissance moyen reçoit plus de 120 emails par jour. Trouver un engagement spécifique, une discussion sur les prix, ou une décision technique devient plus difficile chaque semaine.

La solution

Nous avons construit un système de Génération Augmentée par Récupération (RAG) conçu spécialement pour les emails. Contrairement à la recherche générique, il comprend le contexte des fils, les relations entre participants et la continuité temporelle. Demandez-lui ce qui a été convenu lors de la négociation avec le fournisseur du trimestre dernier, et il trouvera le fil, lira toutes les réponses et extraira la décision clé — en citant le message exact. Le système gère l'indexation multi-comptes, la reconstruction des fils et les mises à jour en temps réel au fur et à mesure que de nouveaux emails arrivent. Il est interrogeable en langage naturel et s'intègre à votre fournisseur d'email existant sans migrer vos données.

Le pipeline

Cinq étapes transforment les données d'email brutes en une couche de connaissances interrogeable et consciente du contexte.

01

Ingestion et reconstruction des fils

Les emails sont récupérés via des APIs standard (Gmail, Outlook, IMAP). La reconstruction des fils assemble les chaînes de réponses en objets de conversation cohérents — préservant l'ordre des participants, la profondeur des réponses, les pièces jointes et les horodatages. C'est le différenciateur critique : nous indexons des fils, pas des messages individuels.

02

Prétraitement et extraction de signaux

Chaque fil est nettoyé des signatures, du texte cité et du boilerplate. Les entités — noms, dates, montants, décisions, éléments d'action — sont extraites et étiquetées comme métadonnées structurées. Cet enrichissement rend le filtrage précis : 'trouver des fils avec des décisions de prix du T4 2025' est une requête valide.

03

Intégration et indexation

Les fils et les messages individuels sont intégrés à l'aide d'un modèle affiné sur la communication par email. L'index stocke des intégrations au niveau du fil et du message, permettant une récupération à la bonne granularité pour chaque type de requête.

04

Synchronisation en temps réel

Les nouveaux emails sont indexés de façon incrémentale à leur arrivée — généralement dans les 30 secondes suivant la réception. Le système maintient un flux de changements du fournisseur d'email, traite les nouveaux messages via le pipeline complet et met à jour l'index sans ré-ingestion complète.

05

Requête et génération

Les requêtes en langage naturel sont comparées avec l'index. Les fils récupérés sont classés par pertinence, récence et autorité des participants. Un modèle de langage synthétise la réponse, citant les messages spécifiques dont il s'est servi. Les questions de suivi maintiennent le contexte de session tout au long de la conversation.

Capacités clés

Construit spécifiquement pour la complexité et le volume des emails organisationnels.

Compréhension au niveau du fil

Lit des fils de conversation entiers comme des objets unifiés — pas des messages isolés. Comprend le contexte des réponses, l'accord par silence et les changements de position tout au long d'un long échange.

Indexation en temps réel

Le nouvel email est interrogeable en quelques secondes après réception. Pas de traitements par lots nocturnes. Pas d'index obsolète. Ce qui est arrivé ce matin est déjà consultable.

Support multi-comptes

Indexez et interrogez plusieurs comptes email — personnels, d'équipe ou boîtes aux lettres partagées — avec un contrôle d'accès unifié. Trouvez des conversations qui s'étendent sur les frontières organisationnelles.

Requêtes temporelles

Posez des questions délimitées dans le temps : 'qu'avons-nous convenu mardi dernier avec l'agence ?' ou 'quel était le dernier prix cité à ce client ?' Le système comprend la portée temporelle de façon native.

Conscience des pièces jointes

Les pièces jointes — PDFs, tableurs, contrats — sont extraites, indexées et consultables aux côtés des messages qui les référencent. Une seule requête peut faire remonter à la fois la discussion et le document.

Limites de confidentialité

Le contrôle d'accès reflète vos autorisations email. Les utilisateurs ne peuvent interroger que les boîtes aux lettres auxquelles ils sont autorisés à accéder. Aucune donnée ne quitte votre infrastructure sauf configuration explicite.

Stack technique

Construit pour la recherche d'emails à grand volume et faible latence à l'échelle organisationnelle.

Gmail API / IMAP

Ingestion d'emails et synchronisation en temps réel

LangChain

Orchestration RAG et routage des requêtes

pgvector

Index vectoriel sur PostgreSQL

sentence-transformers

Intégrations optimisées pour les emails

FastAPI

Couche API de requêtes

Redis

Pipeline de streaming et mise en cache

Impact

Après le déploiement, les équipes ont rapporté trouver des informations qu'elles pensaient précédemment perdues. L'intégration de nouveaux membres d'équipe est devenue significativement plus rapide — les nouvelles recrues pouvaient interroger l'historique du projet de façon autonome sans déranger les membres seniors. Les dirigeants ont utilisé le système pour se préparer aux réunions clients en interrogeant l'historique complet d'une relation en quelques minutes plutôt que des heures. Le temps de réponse pour les requêtes clients citant des engagements précédents est passé de heures à secondes. Le système a indexé plus de 500 000 fils par compte et retourné des réponses en moins de 2 secondes.

"Trois ans de négociations fournisseurs, accessibles en une question. Ça seul a changé notre façon de préparer les contrats."

Conclusion

L'email n'est pas un outil de communication — c'est un système de mémoire institutionnelle que les organisations utilisent sans couche de récupération. Ce système ajoute cette couche. Les décisions, engagements et contextes enfouis dans votre boîte de réception deviennent interrogeables, auditables et utiles. Ce qui était une friction devient un levier.

Prêt à libérer les connaissances enfouies dans votre boîte de réception ?

VIVIA construit des systèmes d'intelligence email de niveau production adaptés à votre infrastructure et vos exigences de confidentialité.

Partager cet article

    Rethinking Email Search: A Retrieval-Augmented Generation System | VIVIA Lab | VIVIA