Ingénieur.e de Fiabilité Senior.e - Fiabilité des Produits | Senior Site Reliability Engineer - Product Reliability in Laval, Quebec at MATADOR.IA INC.
Explore Related Opportunities
Job Description
An English version will follow.
Ingénieur.e de Fiabilité Senior.e - Fiabilité des Produits
À propos de Matador
Matador révolutionne le secteur de la vente automobile en étant la plateforme d'IA conversationnelle n°1 pour les concessionnaires. Notre plateforme de pointe aide les concessionnaires automobiles à automatiser et à améliorer leurs conversations de vente et de service, favorisant ainsi un meilleur engagement client et de meilleurs résultats commerciaux. Avec plus de 500 concessionnaires qui font confiance à notre technologie, nous connaissons une croissance rapide et redéfinissons la manière dont l'industrie automobile se connecte avec les clients.
L'Opportunité
Nous recherchons un.e Ingénieur.e de Fiabilité Senior.e – Fiabilité des Produits pour aider à mettre à l'échelle, exploiter et améliorer la fiabilité de notre plateforme de communication basée sur l'IA. Ce rôle se situe à l'intersection de l'ingénierie logicielle, de l'infrastructure, des opérations et du support produit.
Vous serez responsable de garantir la stabilité, l'évolutivité et les performances des systèmes alimentant des milliers d'interactions en temps réel sur des architectures distribuées et événementielles. Vous servirez également de première couche d'investigation technique pour les incidents de production et les défaillances liées aux produits, en partenariat étroit avec les équipes d'ingénierie pour identifier les causes profondes, améliorer l'observabilité et favoriser des améliorations durables de la fiabilité.
Ce rôle hautement technique et pratique convient à quelqu'un qui aime déboguer des systèmes complexes, améliorer l'excellence opérationnelle et construire une infrastructure fiable à grande échelle.
Responsabilités
Servir comme première ligne d'investigation technique pour les incidents de production, les défaillances de produits et les problèmes de performanceAnalyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes et implémenter des solutionsCollaborer étroitement avec les équipes d'ingénierie backend et DevOps pour diagnostiquer les problèmes affectant la stabilité, la latence et la fiabilitéConcevoir et mettre en œuvre des améliorations d'observabilité, y compris la surveillance, l'alerte et la journalisation structurée, à travers les systèmes distribuésÉtablir et améliorer les processus de réponse aux incidents, y compris les procédures d'escalade, l'analyse post-mortem et la prévention des incidents récurrentsParticiper à la conception architecturale des services backend, des systèmes événementiels et des pipelines de messagerie asynchrone pour garantir la fiabilité et la récupération après sinistreOptimiser les performances et la résilience des systèmes fonctionnant sous charge élevée, avec des milliers d'interactions en temps réelDévelopper et maintenir la documentation opérationnelle, les runbooks et les dashboards pour soutenir les opérations en productionCollaborer avec les équipes de produit et de support client pour comprendre les impacts métier et les prioritésMentorer les ingénieurs plus juniors sur les meilleures pratiques de fiabilité et les principes de conception résilienteQualifications Requises
5+ années d'expérience en ingénierie de la fiabilité des sites, ingénierie de production, ingénierie backend ou rôles similairesExpérience pratique solide avec Node.js et TypeScript dans des environnements de productionExpérience éprouvée dans l'exploitation et le dépannage des architectures de systèmes distribués et microservicesExpérience en gestion des charges de travail de production sur AWS, y compris ECS, Lambda, SQS et API GatewayExpérience pratique avec Kafka, AWS SQS ou d'autres systèmes de messagerie/streaming d'événementsCompréhension solide des meilleures pratiques en observabilité, surveillance, alerte et réponse aux incidentsExpérience en débogage de problèmes complexes de production sur les couches application, infrastructure et réseauCompréhension approfondie des concepts de fiabilité des systèmes, notamment la concurrence, les workflows asynchrones, la résilience, la tolérance aux pannes et la cohérence éventuelleExpérience avec MongoDB et Redis dans des environnements de production à grande échelleCapacité à analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondesFortes compétences en communication et capacité à collaborer entre les équipes d'ingénierie, produit et supportExpérience du mentorat d'ingénieurs et contribution aux initiatives d'excellence opérationnelleAtouts
Expérience avec Kubernetes et l'orchestration de conteneurs en productionExpérience plus large de l'infrastructure AWS (réseautage, infrastructure-as-code, observabilité, optimisation des coûts)Expérience avec les bases de données relationnelles telles que PostgreSQLExpérience en développement de tests de charge, de tests de résilience et d'exercices de chaos engineeringExpérience antérieure en support client ou en travail direct avec les clients pour comprendre les impacts métierPourquoi Matador ?
Rejoignez une équipe passionnée qui innove dans l'espace de l'IA pour l'automobile.Travaillez à distance avec des horaires flexibles et une forte autonomie.Contribuez à une entreprise en croissance où votre voix et votre impact comptent.Rémunération compétitive et opportunités d'avancement.Nous recherchons des ingénieurs autonomes, brillants et passionnés qui sont enthousiastes à l'idée de construire une infrastructure fiable qui alimente une technologie révolutionnaire. Si vous êtes passionné par les systèmes évolutifs, l'excellence opérationnelle et la création d'une base de production solide pour une entreprise à forte croissance, nous voulons vous entendre.
Rejoignez-nous pour façonner la fiabilité de l'avenir des communications de vente automobile !
Échelle Salariale 130-150k selon l'expérience
Senior Site Reliability Engineer - Product Reliability
About UsMatador AI is revolutionizing the automotive retail space as the #1 ranked conversational AI platform for dealerships. Our cutting-edge platform helps automotive dealerships automate and enhance their sales and service conversations, driving better customer engagement and business outcomes. With over 500 dealerships trusting our technology, we're growing rapidly and redefining how the automotive industry connects with customers.
The OpportunityWe're seeking a Senior Site Reliability Engineer – Product Reliability to help scale, operate, and improve the reliability of our AI-powered communication platform. This role sits at the intersection of software engineering, infrastructure, operations, and product support.
You'll be responsible for ensuring the stability, scalability, and performance of systems powering thousands of real-time interactions across distributed, event-driven architectures. You'll also serve as the first layer of technical investigation for production issues and product-related failures, partnering closely with engineering teams to identify root causes, improve observability, and drive long-term reliability improvements.
This is a highly technical, hands-on role for someone who enjoys debugging complex systems, improving operational excellence, and building reliable infrastructure at scale.
ResponsibilitiesServe as the first line of technical investigation for production incidents, product failures, and performance issuesAnalyze logs, traces, metrics, and system behavior to identify root causes efficiently and implement solutionsPartner closely with backend engineering and DevOps teams to diagnose issues impacting stability, latency, and reliabilityDesign and implement observability improvements, including monitoring, alerting, and structured logging across distributed systemsEstablish and improve incident response processes, including escalation procedures, post-mortem analysis, and prevention of recurring incidentsParticipate in architectural design of backend services, event-driven systems, and asynchronous messaging pipelines to ensure reliability and disaster recoveryOptimize performance and resilience of systems operating under high load, powering thousands of real-time interactionsDevelop and maintain operational documentation, runbooks, and dashboards to support production operationsCollaborate with product and customer support teams to understand business impact and prioritizationMentor junior engineers on reliability best practices and resilient design principlesRequired Qualifications5+ years of experience in Site Reliability Engineering, Production Engineering, Backend Engineering, or related rolesStrong hands-on experience with Node.js and TypeScript in production environmentsProven experience operating and troubleshooting distributed systems and microservices architecturesExperience managing production workloads on AWS, including ECS, Lambda, SQS, and API GatewayHands-on experience with Kafka, AWS SQS, or other messaging/event-streaming systemsStrong understanding of observability, monitoring, alerting, and incident response best practicesExperience debugging complex production issues across application, infrastructure, and networking layersDeep understanding of system reliability concepts including concurrency, async workflows, resiliency, fault tolerance, and eventual consistencyExperience with MongoDB and Redis in high-scale production environmentsAbility to analyze logs, traces, metrics, and system behavior to identify root causes efficientlyStrong communication skills and ability to collaborate across engineering, product, and support teamsExperience mentoring engineers and contributing to operational excellence initiativesNice to HaveKubernetes and container orchestration in productionBroader AWS infrastructure experience (networking, infrastructure-as-code, observability, cost optimization)Experience with relational databases such as PostgreSQLExperience developing load tests, resilience tests, and chaos engineering exercisesPrior customer support experience or direct work with customers to understand business impactWhy Matador AI?Join a passionate team innovating in the AI space for automotive.Work remotely with flexible hours and strong autonomy.Contribute to a growing company where your voice and impact matter.Competitive compensation and opportunities for advancement.We're looking for self-driven, bright, and passionate engineers who are excited about building reliable infrastructure that powers revolutionary technology. If you're passionate about scalable systems, operational excellence, and creating a solid production foundation for a high-growth company, we want to hear from you.
Join us in shaping the reliability of the future of automotive retail communications!
Salary Range 130-150k commensurate with experience