Articles of apache spark

Pourquoi Spark échoue-t-il avec java.lang.OutOfMemoryError: limite de surcharge du GC dépassée?

J’essaie d’implémenter un travail Hadoop Map / Reduce qui a bien fonctionné avant dans Spark. La définition de l’application Spark est la suivante: val data = spark.textFile(file, 2).cache() val result = data .map(//some pre-processing) .map(docWeightPar => (docWeightPar(0),docWeightPar(1)))) .flatMap(line => MyFunctions.combine(line)) .reduceByKey( _ + _) Où MyFunctions.combine est def combine(tuples: Array[(Ssortingng, Ssortingng)]): IndexedSeq[(Ssortingng,Double)] = for (i […]

Pourquoi «Impossible de trouver un encodeur pour le type stocké dans un dataset» lors de la création d’un jeu de données de classe de cas personnalisé?

Spark 2.0 (final) avec Scala 2.11.8. Le code super simple suivant génère l’erreur de compilation. Error:(17, 45) Unable to find encoder for type stored in a Dataset. Primitive types (Int, Ssortingng, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases. Error:(17, 45) […]

Comment utiliser Column.isin avec la liste?

val items = List(“a”, “b”, “c”) sqlContext.sql(“select c1 from table”) .filter($”c1″.isin(items)) .collect .foreach(println) Le code ci-dessus renvoie l’exception suivante. Exception in thread “main” java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(a, b, c) at org.apache.spark.sql.catalyst.expressions.Literal$.apply(literals.scala:49) at org.apache.spark.sql.functions$.lit(functions.scala:89) at org.apache.spark.sql.Column$$anonfun$isin$1.apply(Column.scala:642) at org.apache.spark.sql.Column$$anonfun$isin$1.apply(Column.scala:642) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:35) at scala.collection.TraversableLike$class.map(TraversableLike.scala:245) at scala.collection.AbstractTraversable.map(Traversable.scala:104) at org.apache.spark.sql.Column.isin(Column.scala:642) Voici […]

Comment accéder aux fichiers s3a: // d’Apache Spark?

Hadoop 2.6 ne supporte pas s3a prêt à l’emploi, j’ai donc essayé une série de solutions et de correctifs, notamment: déployer avec hadoop-aws et aws-java-sdk => ne peut pas lire la variable d’environnement pour les informations d’identification append hadoop-aws dans maven => divers conflits de dépendance transitifs Quelqu’un a-t-il réussi à faire fonctionner les deux?

Comment enregistrer DataFrame directement dans Hive?

Est-il possible de sauvegarder DataFrame directement dans Hive. J’ai essayé de convertir DataFrame en Rdd , puis de l’enregistrer en tant que fichier texte, puis de le charger dans la hive. Mais je me demande si je peux directement enregistrer dataframe à la hive

Comment exécuter un programme spark java

J’ai écrit un programme Java pour spark. Mais comment l’exécuter et le comstackr depuis la ligne de commande Unix. Dois-je inclure un pot lors de la compilation pour l’exécution

PySpark groupByKey renvoyant pyspark.resultiterable.ResultIterable

J’essaie de comprendre pourquoi mon groupByKey renvoie les éléments suivants: [(0, ), (1, ), (2, ), (3, ), (4, ), (5, ), (6, ), (7, ), (8, ), (9, )] J’ai des valeurs flatMapped qui ressemblent à ceci: [(0, u’D’), (0, u’D’), (0, u’D’), (0, u’D’), (0, u’D’), (0, u’D’), (0, u’D’), (0, u’D’), (0, […]

Compter efficace avec Apache Spark

100 millions de clients cliquent 100 milliards de fois sur les pages de quelques sites Web (disons 100 sites Web). Et le stream de clics est à votre disposition dans un grand dataset. En utilisant les abstractions d’Apache Spark, quel est le moyen le plus efficace de compter les visiteurs distincts par site Web?

Comment gérer la mémoire de l’exécuteur et la mémoire du pilote dans Spark?

Je suis confus à propos de la mémoire exécuteur et de la mémoire du pilote dans Spark. Les parameters de mon environnement sont les suivants: Mémoire 128 G, 16 CPU pour 9 VM Centos Hadoop 2.5.0-cdh5.2.0 Spark 1.1.0 Informations sur les données d’entrée: Fichier de données de 3,5 Go de HDFS Pour un développement simple, […]

Méthode optimale pour créer un pipeline ml dans Apache Spark pour un jeu de données avec un nombre élevé de colonnes

Je travaille avec Spark 2.1.1 sur un jeu de données avec ~ 2000 fonctionnalités et j’essaie de créer un pipeline ML de base, composé de certains transformateurs et d’un classificateur. Supposons, pour simplifier, que le pipeline sur lequel je travaille se compose d’un VectorAssembler, d’un SsortingngIndexer et d’un classificateur, ce qui serait un cas assez […]