data.table a introduit l’opérateur: =. Pourquoi ne pas surcharger <-?
Quelle est la manière correcte de changer les niveaux d’une colonne de factor dans une data.table (note: pas de data.table données) library(data.table) mydt <- data.table(id=1:6, value=as.factor(c("A", "A", "B", "B", "B", "C")), key="id") mydt[, levels(value)] [1] "A" "B" "C" Je cherche quelque chose comme: mydt[, levels(value) <- c("X", "Y", "Z")] Mais bien sûr, la ligne ci-dessus […]
J’ai une data.table qui n’est pas très grande (2 Go) mais pour une raison quelconque, write.csv prend beaucoup de temps pour l’écrire (je n’ai jamais fini d’attendre) et semble utiliser une tonne de RAM pour le faire il. J’ai essayé de convertir le data.table en un data.frame bien que cela ne devrait pas vraiment faire […]
Le data.table a une fonctionnalité intéressante qui supprime la sortie vers la tête et la queue de la table. Est-il possible de visualiser / imprimer plus de 100 lignes à la fois? library(data.table) ## Convert the ubiquitous “iris” data to a data.table dtIris = as.data.table(iris) ## Printing 100 rows is possible dtIris[1:100, ] ## Printing […]
Lorsque vous utilisez data.table est-il possible de retourner toutes les colonnes sauf une, comme dans data.frame ? Si la réponse est non, est-ce que quelqu’un a un moyen élégant de transformer une série de data.table multiple data.table en un object zoo ou autre object de série chronologique? Prenons l’exemple suivant: library(data.table) library(zoo) ## DEFINE DATA […]
J’ai une table data.table avec une colonne de caractères et je souhaite sélectionner uniquement les lignes contenant une sous-chaîne. Equivalent à SQL WHERE x LIKE ‘%subssortingng%’ Par exemple > Months = data.table(Name = month.name, Number = 1:12) > Months[“mb” %in% Name] Empty data.table (0 rows) of 2 cols: Name,Number Comment puis-je sélectionner uniquement les lignes […]
Je suis en train d’essayer un workflow basé sur dplyr (plutôt que d’utiliser principalement data.table, auquel je suis habitué), et j’ai rencontré un problème que je ne trouve pas de solution dplyr équivalente à . Je suis souvent confronté au scénario dans lequel je dois mettre à jour / remplacer de manière conditionnelle plusieurs colonnes […]
J’essaie d’utiliser data.table pour accélérer le traitement d’un grand fichier de données (300 Ko x 60) composé de plusieurs data.frames fusionnés plus petits. Je suis nouveau sur data.table. Le code jusqu’à présent est le suivant library(data.table) a = data.table(index=1:5,a=rnorm(5,10),b=rnorm(5,10),z=rnorm(5,10)) b = data.table(index=6:10,a=rnorm(5,10),b=rnorm(5,10),c=rnorm(5,10),d=rnorm(5,10)) dt = merge(a,b,by=intersect(names(a),names(b)),all=T) dt$category = sample(letters[1:3],10,replace=T) et je me demandais s’il existait un […]
Je souhaite (1) grouper les données par une variable ( State ), (2) au sein de chaque groupe trouver la ligne de valeur minimum d’une autre variable ( Employees ) et (3) extraire la ligne entière. (1) et (2) sont simples, et je pense que (3) devrait l’être aussi, mais je ne peux pas l’obtenir. […]
TL; DR Quelle est la méthode la plus rapide en R pour lire et écrire un sous-ensemble de colonnes à partir d’une très grande masortingce. Je tente une solution avec data.table mais j’ai besoin d’un moyen rapide d’extraire une séquence de colonnes? Réponse courte: La partie coûteuse de l’opération est l’affectation. La solution consiste donc […]