Est-il possible de prendre les 1000 premières lignes d’un Spark Dataframe?

J’utilise la fonction randomSplit pour obtenir une petite quantité de dataframe à utiliser à des fins de développement et je finis par prendre le premier df renvoyé par cette fonction.

 val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0) 

Si j’utilise df.take(1000) je me retrouve avec un tableau de lignes, pas un dataframe, donc cela ne fonctionnera pas pour moi.

Existe-t-il un moyen plus simple de prendre les 1000 premières lignes du fichier DF et de les stocker sous une autre forme?

La méthode que vous recherchez est .limit .

Retourne un nouveau DataFrame en prenant les n premières lignes. La différence entre cette fonction et la tête est que la tête retourne un tableau alors que la limite retourne un nouveau DataFrame.