J’utilise la fonction randomSplit
pour obtenir une petite quantité de dataframe à utiliser à des fins de développement et je finis par prendre le premier df renvoyé par cette fonction.
val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)
Si j’utilise df.take(1000)
je me retrouve avec un tableau de lignes, pas un dataframe, donc cela ne fonctionnera pas pour moi.
Existe-t-il un moyen plus simple de prendre les 1000 premières lignes du fichier DF et de les stocker sous une autre forme?
La méthode que vous recherchez est .limit .
Retourne un nouveau DataFrame en prenant les n premières lignes. La différence entre cette fonction et la tête est que la tête retourne un tableau alors que la limite retourne un nouveau DataFrame.