VoxIA - Roadmap

Introduction

Cette application web permet de charger un enregistrement audio pour obtenir une transcription textuelle. Les utilisateurs peuvent ensuite travailler la transcription et gérer leur compte rendu de réunion grâce à des agents IA déployés pour diverses tâches comme le résumé, les décisions prises, et la conclusion.

Intégration Microsoft Teams : Prise en charge complète des transcriptions existantes provenant de Teams, avec possibilité pour l'utilisateur de choisir entre alimenter ou remplacer les transcriptions Whisper selon ses préférences.
Refonte de l'interface de création : Remaniement complet du formulaire de nouvelles transcriptions avec un design moderne et une expérience utilisateur repensée pour plus de fluidité et d'intuitivité.
Sélection des modèles de génération : Ajout de la possibilité de choisir entre différents modèles IA (GPT-4o, GPT-4.1 mini et nano) pour la génération de comptes-rendus, avec des modèles nano et mini optimisés pour traiter de très longues réunions grâce à leur limite d'entrée considérablement étendue.
Intégration automatique de l'ordre du jour : Récupération automatique de l'ordre du jour depuis les réunions Outlook/Teams permettant à l'IA de mieux structurer et organiser les comptes-rendus générés.
Gestion avancée des tags et types de réunions : Intégration approfondie permettant aux utilisateurs de créer leurs propres tags et types de réunions via un champ dédié avec interface Tom Select pour une personnalisation maximale.
Optimisation des agents IA : Amélioration significative des prompts des agents pour des résultats plus précis et pertinents dans l'analyse et la génération de contenu.
Amélioration de l'export PDF : Suppression des marges excessives et intégration de polices de caractères modernes pour des documents plus élégants et professionnels.
Actions en lot : Possibilité d'effectuer des actions en masse directement depuis la page de gestion des transcriptions pour optimiser la productivité.

Amélioration du système de sections du compte-rendu : Possibilité d'ajouter/supprimer des sections avec pré-sélection automatisée selon le type de réunion et gestion optimisée de l'ordonnancement.
Ajout de la notion d'archivage : Nettoyage du tableau des transcriptions, gestion d'un compteur de transcriptions actives par utilisateur et limitation des ressources requises.
Nouvelle interface de création de transcription : Expérience utilisateur plus fluide et intuitive.
Remaniement du menu des transcriptions : Organisation et navigation améliorées.
Amélioration de l'interface d'exportation des comptes-rendus : Options simplifiées et optimisées.
Attribution des tags par utilisateur : Gestion personnalisée des tags désormais spécifique à chaque utilisateur.
Amélioration de la gestion des segments : Meilleure gestion de la découpe par segment, optimisation de la fonction de fusion des segments et suppression de "Radio Canada" et autres chaînes inutiles résultant de l'entraînement du modèle Whisper.
Corrections générales de bugs : Stabilité et performances globales améliorées.

Amélioration de l'interface utilisateur : Refonte des sections "export et téléchargement" & "Transcrire" pour une meilleure expérience.
Nouveau modèle de transcription 'turbo' : Transcriptions nettement plus rapides avec une qualité préservée.
Mise à niveau du modèle IA : Passage à GPT4-mini pour une réalisation du compte-rendu plus précise et rapide.

Améliorations de la plateforme

Mise à jour de la version Symfony : Passage à la dernière version stable pour bénéficier des nouvelles fonctionnalités et améliorations de sécurité.
Mise à jour de la version de Bootstrap : Utilisation de la dernière version pour un design réactif et moderne.
Refactoring de la partie FASTAPI avec l'introduction de Redis et les files d'attentes : Optimisation de la stabilité et des performances avec une gestion efficace des tâches asynchrones.
Intégration de Mercure : Pour un affichage pertinent des résultats des tâches asynchrones en temps réel.
Upload du fichier audio vers un cloud storage : Stockage des fichiers audio sur un service cloud pour une meilleure gestion et accessibilité.
Mise en cache et transfert du fichier audio : Gestion du stockage local ou distant du fichier pour améliorer les performances et alléger le serveur.
Partie d'administration : Interface de gestion des agents et pour faciliter le débogage en cas de blocage.

Améliorations UX/UI

Refonte graphique orientée UX : Amélioration de l'interface utilisateur pour une meilleure expérience utilisateur.
Ajout de la fonction de génération en un coup : Simplification du processus de génération pour l'utilisateur.
Introduction des catégories et des tags : Organisation des transcriptions pour une meilleure gestion et recherche.
Notification par email lorsque la transcription est OK : Lien vers le PDF du compte rendu et vers la transcription sur la plateforme pour un accès facile.

Améliorations des agents IA

Refactoring des agents, avec liaison entre eux : Amélioration de la communication et de la coordination entre les différents agents pour une meilleure efficacité.
Introduction des variables pour les agents : Manipulation et utilisation de variables par les agents pour plus de flexibilité.

Prochaines étapes (v3 et futures versions)

Intégrations et Connecteurs

Intégration d'un LLM européen : Suite à l'optimisation des modèles de génération, intégration prochaine d'un modèle de langage européen pour offrir une alternative locale aux solutions américaines.
Intégration de Llama ou de Mistral : Ajout d'un modèle open-source en parallèle de GPT-4 pour offrir plus d'options de transcription et génération de comptes-rendus.

Optimisations et Performance

Optimisation du traitement audio avec Audacity : Utilisation d'Audacity en ligne de commande pour traiter efficacement les fichiers audio longs.
Gestion des fichiers audio longs : Découpage et traitement des fichiers de plusieurs heures avec restitution de toutes les transcriptions dans un seul document.
Récupération de l'état d'avancement de la transcription : Vue sur l'état du processus : position dans la file d'attente et pourcentage de progression.

Nouveaux Outils et Fonctionnalités

RAG sur vos comptes-rendus : Recherche Augmentée par Génération à travers les comptes-rendus pour des recherches efficaces dans les documents générés. Cette fonctionnalité a bien progressé et devrait faire partie de la prochaine version majeure de VoxIA.
Interface d'édition de transcription simplifiée : Nouvelle interface beaucoup plus simple et intuitive pour l'édition des transcriptions, facilitant la modification et la correction du contenu transcrit.
Identification des intervenants via Microsoft Teams : Résolution partielle de l'identification des participants dans les réunions grâce à l'utilisation des transcriptions Microsoft Teams qui incluent déjà l'identification des intervenants.
Filtrer sur les tags : Permettre de filtrer les transcriptions par tag pour des recherches plus ciblées.
Permettre une multitude de formats, dont le format vidéo : Support pour différents formats, y compris vidéo, pour s'adapter aux besoins des utilisateurs.
Utilisation de l'analyse des sentiments : Extraction d'insights émotionnels dans les transcriptions pour mieux comprendre les dynamiques des réunions.
Permettre à l'IA de définir des tags sur les transcriptions : Automatisation de la classification des transcriptions par l'IA pour une organisation intelligente.
Gestion des sections dans les rapports générés : Sélection des sections spécifiques (résumé, décisions, participants) à inclure dans le compte rendu selon le type de réunion.
Indicateur de modification des sections de rapport : Ajout d'un repère visuel ou d'une date/heure de la dernière modification pour suivre les changements dans les rapports.

Évolutions de la roadmap

Connecteur Webex : Abandon de cette intégration, Webex n'étant plus utilisé par nos utilisateurs.
Diarisation : Cette fonctionnalité n'a pas été développée dans cette version mais reste en considération pour les futures versions.

Roadmap

Introduction

V2.3

V2.2 (21/02/2025)

V2.1 (18/12/2024)

V2.0 (22/07/2024)