Articles of dataframe

Pourquoi est-il déconseillé d’utiliser attach () dans R et que dois-je utiliser à la place?

Supposons que nous ayons un bloc de données x contenant le job et le income colonnes. Faire référence aux données du cadre nécessite normalement les commandes x$job pour les données de la colonne du job et x$income pour les données de la colonne du income . Cependant, l’utilisation de la commande attach(x) permet de supprimer […]

Fusionner des blocs de données en fonction des noms de domaine dans R

Comment puis-je fusionner les colonnes de deux blocs de données, contenant un ensemble de colonnes distinct, mais certaines lignes portant les mêmes noms? Les champs pour les lignes qui ne figurent pas dans les deux blocs de données doivent être remplis de zéros: > d abcdefghij 1 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 […]

Calculer des moyennes de lignes sur un sous-ensemble de colonnes

Étant donné un exemple de firebase database: C1<-c(3,2,4,4,5) C2<-c(3,7,3,4,5) C3<-c(5,4,3,6,3) DF<-data.frame(ID=c("A","B","C","D","E"),C1=C1,C2=C2,C3=C3) DF ID C1 C2 C3 1 A 3 3 5 2 B 2 7 4 3 C 4 3 3 4 D 4 4 6 5 E 5 5 3 Quelle est la meilleure façon de créer un second bloc de données contenant la […]

Calculer la moyenne par groupe

J’ai un grand bloc de données ressemblant à ceci: df df dive speed 1 dive1 0.80668490 2 dive1 0.53349584 3 dive2 0.07571784 4 dive2 0.39518628 5 dive1 0.84557955 6 dive1 0.69121443 7 dive1 0.38124950 8 dive2 0.22536126 9 dive1 0.04704750 10 dive2 0.93561651 Mon objective est de faire la moyenne des valeurs d’une colonne lorsqu’une […]

Imposer plusieurs colonnes à des facteurs à la fois

J’ai un exemple de bloc de données comme ci-dessous: data <- data.frame(matrix(sample(1:40), 4, 10, dimnames = list(1:4, LETTERS[1:10]))) Je veux savoir comment sélectionner plusieurs colonnes et les convertir en facteurs. Je le fais habituellement comme les data$A = as.factor(data$A) . Mais lorsque le bloc de données est très volumineux et contient beaucoup de colonnes, cela […]

renommer les colonnes pour les agrégats de données pyspark

J’parsing des données avec des dataprames pyspark, supposons que je possède un dataframe que je regroupe: df.groupBy(“group”)\ .agg({“money”:”sum”})\ .show(100) Cela me donnera: group SUM(money#2L) A 137461285853 B 172185566943 C 271179590646 L’agrégation fonctionne très bien mais je n’aime pas le nouveau nom de colonne “SUM (money # 2L)”. Existe-t-il un moyen pratique de renommer cette colonne […]

Comment enregistrer un bloc de données au format CSV dans un emplacement sélectionné par l’utilisateur à l’aide de tcltk

J’ai un bloc de données appelé, Fail . Je souhaite enregistrer Fail tant que CSV dans un emplacement que l’utilisateur sélectionne. Voici un exemple de code que j’ai trouvé, mais je ne sais pas comment l’intégrer. require(tcltk) fileName <- tclvalue(tkgetSaveFile()) if (!nchar(fileName)) { tkmessageBox(message = "No file was selected!") } else { tkmessageBox(message = paste("The […]

Suppression de l’affichage des noms de lignes du bloc de données

Je crée un dataframe en utilisant ce code: df <- data.frame(dbGetQuery(con, paste('select * from test'))) Ce qui aboutit à ceci: UID BuildingCode AccessTime 1 123456 BUILD-1 2014-06-16 07:00:00 2 364952 BUILD-2 2014-06-15 08:00:00 3 95865 BUILD-1 2014-06-06 09:50:00 J’essaie alors de supprimer les noms de lignes (1, 2, 3, etc.) comme suggéré ici en utilisant […]

python pandas append une colonne dans dataframe de la liste

[EDIT: Sujet / titre incorrect du message corrigé] J’ai un dataframe avec des colonnes comme ceci: ABC 0 4 5 6 7 7 6 5 La plage possible de valeurs dans A est seulement de 0 à 7 . J’ai aussi une liste de 8 éléments comme ceci: List=[2,5,6,8,12,16,26,32] //There are only 8 elements in […]

write.csv pour les grandes data.table en R

J’ai une data.table qui n’est pas très grande (2 Go) mais pour une raison quelconque, write.csv prend beaucoup de temps pour l’écrire (je n’ai jamais fini d’attendre) et semble utiliser une tonne de RAM pour le faire il. J’ai essayé de convertir le data.table en un data.frame bien que cela ne devrait pas vraiment faire […]