ContexteIl n'est pas toujours possible d'avoir accès à un expert humain lorsque vient le temps de réaliser un triage à la fois abordable et efficace des affections ophtalmiques. Grâce aux progrès récents des robots conversationnels (chatbots) d'intelligence artificielle (IA) accessibles au public, tous peuvent maintenant utiliser ces outils pour réaliser un triage de leurs affections ophtalmiques. Il devient donc nécessaire de mener des études de validation pour évaluer l'efficacité des robots d'IA utilisés en tant qu'outil de triage et aviser le grand public de leur innocuité. ObjectifÉvaluer l'efficacité des robots d'IA pour réaliser un triage des affections ophtalmiques. NatureÉtude transversale. CadreÉtablissement unique. ParticipantsÉtudiants en ophtalmologie et 3 robots conversationnels : les interfaces OpenAI ChatGPT (GPT-4) et Bing Chat, et l'application WebMD Symptom Checker. MéthodesEn mars 2023, on a mis au point 44 vignettes cliniques portant sur des troubles ophtalmologiques fréquents de même que des messages-guides standardisés, que l'on a présentés à chaque robot conversationnel. Les paramètres principaux consistaient en la proportion de réponses qui faisaient ressortir le bon diagnostic inscrit parmi les 3 diagnostics les plus plausibles et la proportion de cas dont le degré d'urgence a été jugé de manière adéquate. Parmi les paramètres de mesure accessoires, citons la présence d’énoncés foncièrement inexacts, le niveau de lecture moyen, le nombre de mots moyens de chaque réponse, la proportion d'attribution et les sources le plus souvent citées. RésultatsLes étudiants en ophtalmologie et les 3 robots conversationnels (ChatGPT, Bing Chat et WebMD Symptom Checker) ont opté pour le diagnostic approprié parmi les 3 diagnostics les plus plausibles dans 42 (95 %), 41 (93 %), 34 (77 %) et 8 (33 %) des cas, respectivement. Le degré d'urgence en matière de triage était exact dans 38 (86 %), 43 (98 %) et 37 (84 %) des cas évalués par les étudiants en ophtalmologie, par ChatGPT et par Bing Chat, respectivement. ConclusionsL'exactitude du diagnostic et du triage obtenue avec ChatGPT, reposant sur le modèle GPT-4, était élevée et comparable à celle des étudiants en ophtalmologie, sans qu'il y ait d’énoncé manifestement inexact. L'interface Bing Chat était assorti d'un taux d'exactitude plus faible, et tendait à surestimer le caractère d'urgence lors du triage.