ScROSHI: robust supervised hierarchical identification of single cells.

Sujana Sivapatham ,Sandra Goetze ,Andrea Jacobs ,Marta Nowak ,Lars Bosshard ,Ulrike Menzel ,Berend Snijder ,Christian P. Kunze ,Markus G. Manz ,Tim M. Jaeger ,Kjong-Van Lehmann ,Christian Kurzeder ,Pirmin Haeuptle ,Tobias Schär ,René Holtackers ,Michael Weller ,Sonali Andani ,Fabian Wendt ,Franziska Singer ,Michael Prummer ,Jacobo Sarabia Del Castillo ,Daniel Baumhoer ,Josephine Yates ,Emanuela S. Milani ,Gregor Zuend ,Stefan G. Stark ,Martin Erkens ,André Kahles ,Patrick G. A. Pedrioli ,Joanna Ficek ,Viktor H. Koelzer ,Niko Beerenwinkel ,Byron Calgua ,Vinko Toševski ,Linda Grob ,Natascha Santacroce ,Bettina Sobottka ,Charlotte K.y. Ng ,Christian Beisel ,Abdullah Kahraman ,Sandra Weber ,Gabriele Gut ,Marcus Vetter ,Walter Weber ,Per-Olof Attinger ,Gabriela Senti ,Valentina Boeva ,Philipp Markolin ,Ramona Schlenker ,Bruno S. Frey ,Natalia Chicherova ,Beatrice Beck‐Schimmer ,Katharina Jahn ,Mathilde Ritter ,Maya D’costa ,Mitchell Levesque ,Esther Danenberg ,Marc Zimmermann ,Nicola Miglino ,Anne Bertolini ,Julien Mena ,Cinzia Esposito ,Rebekka Wegmann ,Sylvia Herter ,Lara Bernasconi ,Sebastian Lugert ,Stéphane Chevrier ,Ruben Casanova ,Anja Frei ,Mattheus H. E. Wildschut ,Nora C. Toussaint ,Florian Barkmann ,Christian Rommel ,Daniel J. Stekhoven ,Rudolf Aebersold ,Jack Kuipers ,André Fedier ,María Lourdes Rosano-González ,Petra Schwalie ,Salvatore Piscuoglio ,Ilaria Alborelli ,Alva Rani James ,Andreas Wicki ,Shuqing Yu ,Faisal Alquaddoomi ,Alexandre Theocharides ,Pedro Ferreira ,Vipin T. Sreedharan ,Tamara Huesser ,Bernd Wollscheid ,Johanna Ziegler ,Martin Zoche ,Francis Jacob ,G. Maass ,Viola Heinzelmann‐Schwarz ,Bernd Bodenmiller ,Holger Moch ,Rita Murri ,Norbert Wey ,Natalie J. Davidson ,Werner Kuebler ,Markus Tolnay ,Mustafa Anil Tuncel ,Anja Irmisch ,Tinu M. Thomas ,Katja Eschbach ,Jonas Albinus ,Severin Schwan ,Tatjana Vlajnic ,M Drăgan ,Detlef Günther ,Simone Muenst ,Gunnar Rätsch ,Marina Tusup ,Martina Haberecker ,Stefanie Engler ,Philip Jermann ,Julian M. Metzler ,Lucas Pelkmans ,Reinhard Dummer ,Marina Bacac ,Audrey Van Drogen ,Stefan Nicolet ,Ximena Bonilla ,Melike Ak

doi:10.1093/nargab/lqad058

Abstract

Identifying cell types based on expression profiles is a pillar of single cell analysis. Existing machine-learning methods identify predictive features from annotated training data, which are often not available in early-stage studies. This can lead to overfitting and inferior performance when applied to new data. To address these challenges we present scROSHI, which utilizes previously obtained cell type-specific gene lists and does not require training or the existence of annotated data. By respecting the hierarchical nature of cell type relationships and assigning cells consecutively to more specialized identities, excellent prediction performance is achieved. In a benchmark based on publicly available PBMC data sets, scROSHI outperforms competing methods when training data are limited or the diversity between experiments is large.

Full Text