Doug Fuller, vice-président de l’ingénierie logicielle chez Cornelis Networks – Série d’interviews
Doug Fuller, VP of Software Engineering at Cornelis Networks - Interview Series
En tant que vice-président de l’ingénierie logicielle, Doug est responsable de tous les aspects de la pile logicielle de Cornelis Networks, y compris les pilotes de l’architecture Omni-Path, les logiciels de messagerie et les systèmes de contrôle des dispositifs intégrés. Avant de rejoindre Cornelis Networks, Doug a dirigé des équipes d’ingénierie logicielle chez Red Hat dans le domaine du stockage en nuage et des services de données. La carrière de Doug dans le calcul intensif et le cloud computing a commencé au Laboratoire national d’Ames, au sein du laboratoire d’informatique évolutive. Après avoir occupé plusieurs postes dans le calcul informatique universitaire, Doug a rejoint le laboratoire national d’Oak Ridge du Département de l’Énergie des États-Unis en 2009, où il a développé et intégré de nouvelles technologies à la remarquable installation de calcul de pointe d’Oak Ridge.
Cornelis Networks est un leader technologique qui fournit des tissus hautes performances conçus spécifiquement pour le calcul intensif (HPC), l’analyse de données à haute performance (HPDA) et l’intelligence artificielle (IA) aux principales organisations commerciales, scientifiques, académiques et gouvernementales.
Qu’est-ce qui vous a d’abord attiré dans l’informatique ?
J’ai simplement aimé travailler avec la technologie. J’ai aimé travailler avec les ordinateurs en grandissant ; nous avions un modem à notre école qui me permettait d’essayer Internet et j’ai trouvé cela intéressant. En première année à l’université, j’ai rencontré un scientifique informatique du Département de l’Énergie des États-Unis alors que je faisais du bénévolat pour le National Science Bowl. Il m’a invité à visiter son laboratoire de calcul intensif et j’ai été accroché. Depuis, je suis un passionné de superordinateurs.
- Un expert en neurosciences réclame un Neuroshield.
- Comment expliquerais-tu l’apprentissage automatique à un enfant de 9 ans?
- La société de gestion de BTS, HYBE, se tourne vers l’intelligence artificielle pour sortir des morceaux dans plusieurs langues.
Vous avez travaillé chez Red Hat de 2015 à 2019, quels ont été certains des projets sur lesquels vous avez travaillé et quelles ont été les leçons clés de cette expérience ?
Mon principal projet chez Red Hat était le stockage distribué Ceph. J’avais précédemment travaillé exclusivement sur le HPC et cela m’a donné l’occasion de travailler sur des technologies essentielles à l’infrastructure en nuage. Cela rime. Beaucoup des principes de scalabilité, de gestionabilité et de fiabilité sont extrêmement similaires, même s’ils visent à résoudre des problèmes légèrement différents. En termes de technologie, ma principale leçon a été que le cloud et le HPC ont beaucoup à apprendre l’un de l’autre. Nous construisons de plus en plus de projets différents avec le même jeu de Lego. Cela m’a vraiment aidé à comprendre comment les technologies habilitantes, y compris les tissus, peuvent être utilisées dans les applications HPC, cloud et IA. C’est aussi là que j’ai vraiment compris la valeur de l’Open Source et comment exécuter la philosophie de développement logiciel Open Source, en amont, que j’ai apportée chez Cornelis Networks. Personnellement, Red Hat a été l’endroit où j’ai vraiment grandi et mûri en tant que leader.
Vous êtes actuellement vice-président de l’ingénierie logicielle chez Cornelis Networks, quelles sont certaines de vos responsabilités et à quoi ressemble votre journée moyenne ?
En tant que vice-président de l’ingénierie logicielle, je suis responsable de tous les aspects de la pile logicielle de Cornelis Networks, y compris les pilotes de l’architecture Omni-Path, les logiciels de messagerie, la gestion des tissus et les systèmes de contrôle des dispositifs intégrés. Cornelis Networks est un endroit passionnant où se trouver, surtout en ce moment et sur ce marché. Pour cette raison, je ne suis pas sûr d’avoir une journée “moyenne”. Certains jours, je travaille avec mon équipe pour résoudre les derniers défis technologiques. D’autres jours, je collabore avec nos architectes matériels pour m’assurer que nos produits de prochaine génération répondront aux besoins de nos clients. Je suis souvent sur le terrain, à rencontrer notre incroyable communauté de clients et de collaborateurs, pour nous assurer de comprendre et d’anticiper leurs besoins.
Cornelis Networks propose des réseaux de nouvelle génération pour le calcul intensif et les applications d’IA, pouvez-vous nous donner des détails sur le matériel proposé ?
Notre matériel se compose d’une solution de réseau à commutation haute performance de type tissu. À cette fin, nous fournissons tous les dispositifs nécessaires pour intégrer pleinement les tissus HPC, cloud et IA. L’interface hôte-tissu Omni-Path (HFI) est une carte PCIe à faible profil pour les dispositifs de point d’extrémité. Nous produisons également un commutateur “top-of-rack” de 48 ports et 1U. Pour des déploiements plus importants, nous proposons deux commutateurs “de classe directeur” entièrement intégrés ; l’un avec 288 ports en 7U et un autre avec 1152 ports et 20U.
Pouvez-vous discuter du logiciel qui gère cette infrastructure et comment il est conçu pour réduire la latence ?
Tout d’abord, notre plateforme de gestion intégrée offre une installation et une configuration faciles, ainsi qu’un accès à une grande variété de mesures de performance et de configuration produites par nos ASIC de commutation.
Notre logiciel pilote est développé dans le cadre du noyau Linux. En fait, nous soumettons toutes nos corrections de logiciel directement à la communauté du noyau Linux. Cela garantit que tous nos clients bénéficient d’une compatibilité maximale avec les distributions Linux et d’une intégration facile avec d’autres logiciels tels que Lustre. Bien qu’il ne soit pas dans le chemin de la latence, le fait d’avoir un pilote inclus dans le noyau réduit considérablement la complexité de l’installation.
Le gestionnaire de tissu Omni-Path (FM) configure et route un tissu Omni-Path. En optimisant les routes de trafic et en récupérant rapidement des erreurs, le FM offre des performances et une fiabilité de premier plan sur des tissus allant de quelques dizaines à des milliers de nœuds.
Omni-Path Express (OPX) est notre logiciel de messagerie haute performance, récemment publié en novembre 2022. Il a été spécialement conçu pour réduire la latence par rapport à notre logiciel de messagerie précédent. Nous avons effectué des simulations précises au cycle près de nos chemins d’envoi et de réception afin de minimiser le nombre d’instructions et l’utilisation du cache. Cela a produit des résultats spectaculaires : lorsque vous êtes dans le régime de la microseconde, chaque cycle compte !
Nous nous sommes également intégrés aux Interfaces OpenFabrics (OFI), une norme ouverte produite par l’OpenFabrics Alliance. L’architecture modulaire de l’OFI contribue à minimiser la latence en permettant aux logiciels de plus haut niveau, tels que MPI, de tirer parti des fonctionnalités du réseau sans appels de fonction supplémentaires.
Le réseau dans son ensemble est également conçu pour augmenter la scalabilité, pourriez-vous partager quelques détails sur la façon dont il parvient à bien se scaler ?
La scalabilité est au cœur des principes de conception d’Omni-Path. Aux niveaux les plus bas, nous utilisons la technologie de couche de liaison de Cray pour corriger les erreurs de liaison sans impact sur la latence. Cela affecte les réseaux à toutes les échelles, mais est particulièrement important pour les réseaux à grande échelle, qui connaissent naturellement plus d’erreurs de liaison. Notre gestionnaire de réseau est axé à la fois sur la programmation de tables de routage optimales et sur la rapidité avec laquelle cela est fait. Cela garantit que même les plus grands réseaux peuvent être routés en un minimum de temps.
La scalabilité est également un composant essentiel de OPX. La minimisation de l’utilisation du cache améliore la scalabilité sur des nœuds individuels avec un grand nombre de cœurs. La minimisation de la latence améliore également la scalabilité en améliorant le temps de complétion des algorithmes collectifs. L’utilisation plus efficace de nos ressources d’interface hôte-réseau permet à chaque cœur de communiquer avec un plus grand nombre de pairs distants. Le choix stratégique de libfabric nous permet de tirer parti de fonctionnalités logicielles telles que les points d’extrémité évolutifs à l’aide d’interfaces standard.
Pourriez-vous partager quelques détails sur la manière dont l’IA est intégrée dans certains des flux de travail chez Cornelis Networks ?
Nous ne sommes pas encore prêts à parler à l’extérieur de nos utilisations internes et de nos plans concernant l’IA. Cela dit, nous utilisons nos propres produits, donc nous pouvons bénéficier des améliorations de latence et de scalabilité que nous avons apportées à Omni-Path pour prendre en charge les charges de travail d’IA. Cela nous rend d’autant plus enthousiastes à l’idée de partager ces avantages avec nos clients et partenaires. Nous avons certainement observé que, comme dans le HPC traditionnel, l’expansion de l’infrastructure est la seule voie à suivre, mais le défi est que les performances du réseau sont facilement étouffées par Ethernet et d’autres réseaux traditionnels.
Quels sont les changements que vous prévoyez dans l’industrie avec l’avènement de l’IA générative ?
Tout d’abord, l’utilisation de l’IA générative rendra les gens plus productifs – aucune technologie dans l’histoire n’a rendu les êtres humains obsolètes. Chaque évolution technologique et révolution que nous avons connue, du métier à tisser le coton au métier à tisser automatique, du téléphone à Internet et au-delà, a rendu certains emplois plus efficaces, mais nous n’avons jamais fait disparaître l’humanité.
Grâce à l’application de l’IA générative, je pense que les entreprises avanceront technologiquement à un rythme plus rapide car ceux qui dirigent l’entreprise auront plus de temps libre pour se concentrer sur ces avancées. Par exemple, si l’IA générative fournit des prévisions, des rapports, une planification, etc. plus précis, les entreprises peuvent se concentrer sur l’innovation dans leur domaine d’expertise.
Je pense spécifiquement que l’IA fera de chacun de nous un expert multidisciplinaire. Par exemple, en tant qu’expert en logiciel évolutif, je comprends les liens entre le HPC, les mégadonnées, le cloud et les applications d’IA qui les poussent vers des solutions comme Omni-Path. Équipé d’un assistant d’IA génératif, je peux approfondir la signification des applications utilisées par nos clients. Je ne doute pas que cela nous aidera à concevoir du matériel et des logiciels encore plus efficaces pour les marchés et les clients que nous servons.
Je prévois également une amélioration globale de la qualité des logiciels. L’IA peut fonctionner efficacement comme “un autre ensemble d’yeux” pour analyser statiquement le code et développer des insights sur les bugs et les problèmes de performance. Cela sera particulièrement intéressant à grande échelle, où les problèmes de performance peuvent être particulièrement difficiles à repérer et coûteux à reproduire.
Enfin, j’espère et je crois que l’IA générative aidera notre industrie à former et à intégrer davantage de professionnels du logiciel sans expérience préalable en IA et HPC. Notre domaine peut sembler intimidant pour beaucoup et il peut être long d’apprendre à “penser en parallèle”. Fondamentalement, tout comme les machines ont facilité la fabrication, l’IA générative facilitera la réflexion et la compréhension des concepts.
Y a-t-il autre chose que vous aimeriez partager sur votre travail ou sur Cornelis Networks en général ?
Je tiens à encourager toute personne intéressée à poursuivre une carrière dans l’informatique, en particulier dans le HPC et l’IA. Dans ce domaine, nous disposons des ressources informatiques les plus puissantes jamais construites et nous les utilisons pour relever les plus grands défis de l’humanité. C’est un endroit passionnant où se trouver, et j’ai apprécié chaque étape du parcours. L’IA générative fait atteindre à notre domaine de nouveaux sommets alors que la demande d’augmentation des capacités augmente considérablement. J’ai hâte de voir où nous allons ensuite.
Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter Cornelis Networks.
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 3 Différences Pratiques Entre astype() et to_datetime() dans Pandas
- Des chercheurs de KAIST présentent FaceCLIPNeRF un pipeline de manipulation textuelle d’un visage en 3D utilisant NeRF déformable.
- Naviguer dans le dédale de l’adoption de l’IA
- Introduction à la science des données Guide du débutant
- Découverte de produits alimentée par LLM un bond au-delà de la recherche hybride
- Du Chaos à l’Ordre Exploiter le regroupement de données pour une prise de décision améliorée
- A l’intérieur de SDXL 1.0 AI de stabilité, nouveau modèle super Texte-vers-Image