Articles of data.table

Pourquoi data.table a-t-il défini: = plutôt que de surcharger <-?

data.table a introduit l’opérateur: =. Pourquoi ne pas surcharger <-?

Comment change-t-on les niveaux d’une colonne de facteur dans un data.table

Quelle est la manière correcte de changer les niveaux d’une colonne de factor dans une data.table (note: pas de data.table données) library(data.table) mydt <- data.table(id=1:6, value=as.factor(c("A", "A", "B", "B", "B", "C")), key="id") mydt[, levels(value)] [1] "A" "B" "C" Je cherche quelque chose comme: mydt[, levels(value) <- c("X", "Y", "Z")] Mais bien sûr, la ligne ci-dessus […]

write.csv pour les grandes data.table en R

J’ai une data.table qui n’est pas très grande (2 Go) mais pour une raison quelconque, write.csv prend beaucoup de temps pour l’écrire (je n’ai jamais fini d’attendre) et semble utiliser une tonne de RAM pour le faire il. J’ai essayé de convertir le data.table en un data.frame bien que cela ne devrait pas vraiment faire […]

Possibilité d’imprimer plus de 100 lignes d’un data.table?

Le data.table a une fonctionnalité intéressante qui supprime la sortie vers la tête et la queue de la table. Est-il possible de visualiser / imprimer plus de 100 lignes à la fois? library(data.table) ## Convert the ubiquitous “iris” data to a data.table dtIris = as.data.table(iris) ## Printing 100 rows is possible dtIris[1:100, ] ## Printing […]

Comment exclure une colonne de data.table OU convertir en data.table en MTS

Lorsque vous utilisez data.table est-il possible de retourner toutes les colonnes sauf une, comme dans data.frame ? Si la réponse est non, est-ce que quelqu’un a un moyen élégant de transformer une série de data.table multiple data.table en un object zoo ou autre object de série chronologique? Prenons l’exemple suivant: library(data.table) library(zoo) ## DEFINE DATA […]

Comment sélectionner les lignes R data.table en fonction de la correspondance de la sous-chaîne (comme la SQL)

J’ai une table data.table avec une colonne de caractères et je souhaite sélectionner uniquement les lignes contenant une sous-chaîne. Equivalent à SQL WHERE x LIKE ‘%subssortingng%’ Par exemple > Months = data.table(Name = month.name, Number = 1:12) > Months[“mb” %in% Name] Empty data.table (0 rows) of 2 cols: Name,Number Comment puis-je sélectionner uniquement les lignes […]

dplyr muter / remplacer sur un sous-ensemble de lignes

Je suis en train d’essayer un workflow basé sur dplyr (plutôt que d’utiliser principalement data.table, auquel je suis habitué), et j’ai rencontré un problème que je ne trouve pas de solution dplyr équivalente à . Je suis souvent confronté au scénario dans lequel je dois mettre à jour / remplacer de manière conditionnelle plusieurs colonnes […]

R récapitulant plusieurs colonnes avec data.table

J’essaie d’utiliser data.table pour accélérer le traitement d’un grand fichier de données (300 Ko x 60) composé de plusieurs data.frames fusionnés plus petits. Je suis nouveau sur data.table. Le code jusqu’à présent est le suivant library(data.table) a = data.table(index=1:5,a=rnorm(5,10),b=rnorm(5,10),z=rnorm(5,10)) b = data.table(index=6:10,a=rnorm(5,10),b=rnorm(5,10),c=rnorm(5,10),d=rnorm(5,10)) dt = merge(a,b,by=intersect(names(a),names(b)),all=T) dt$category = sample(letters[1:3],10,replace=T) et je me demandais s’il existait un […]

Extraire la ligne correspondant à la valeur minimale d’une variable par groupe

Je souhaite (1) grouper les données par une variable ( State ), (2) au sein de chaque groupe trouver la ligne de valeur minimum d’une autre variable ( Employees ) et (3) extraire la ligne entière. (1) et (2) sont simples, et je pense que (3) devrait l’être aussi, mais je ne peux pas l’obtenir. […]

Comment optimiser les lectures et les écritures dans les sous-sections d’une masortingce en R (éventuellement en utilisant data.table)

TL; DR Quelle est la méthode la plus rapide en R pour lire et écrire un sous-ensemble de colonnes à partir d’une très grande masortingce. Je tente une solution avec data.table mais j’ai besoin d’un moyen rapide d’extraire une séquence de colonnes? Réponse courte: La partie coûteuse de l’opération est l’affectation. La solution consiste donc […]