J’essaie d’implémenter un travail Hadoop Map / Reduce qui a bien fonctionné avant dans Spark. La définition de l’application Spark est la suivante: val data = spark.textFile(file, 2).cache() val result = data .map(//some pre-processing) .map(docWeightPar => (docWeightPar(0),docWeightPar(1)))) .flatMap(line => MyFunctions.combine(line)) .reduceByKey( _ + _) Où MyFunctions.combine est def combine(tuples: Array[(Ssortingng, Ssortingng)]): IndexedSeq[(Ssortingng,Double)] = for (i […]
Spark 2.0 (final) avec Scala 2.11.8. Le code super simple suivant génère l’erreur de compilation. Error:(17, 45) Unable to find encoder for type stored in a Dataset. Primitive types (Int, Ssortingng, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases. Error:(17, 45) […]
val items = List(“a”, “b”, “c”) sqlContext.sql(“select c1 from table”) .filter($”c1″.isin(items)) .collect .foreach(println) Le code ci-dessus renvoie l’exception suivante. Exception in thread “main” java.lang.RuntimeException: Unsupported literal type class scala.collection.immutable.$colon$colon List(a, b, c) at org.apache.spark.sql.catalyst.expressions.Literal$.apply(literals.scala:49) at org.apache.spark.sql.functions$.lit(functions.scala:89) at org.apache.spark.sql.Column$$anonfun$isin$1.apply(Column.scala:642) at org.apache.spark.sql.Column$$anonfun$isin$1.apply(Column.scala:642) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245) at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:245) at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33) at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:35) at scala.collection.TraversableLike$class.map(TraversableLike.scala:245) at scala.collection.AbstractTraversable.map(Traversable.scala:104) at org.apache.spark.sql.Column.isin(Column.scala:642) Voici […]
Hadoop 2.6 ne supporte pas s3a prêt à l’emploi, j’ai donc essayé une série de solutions et de correctifs, notamment: déployer avec hadoop-aws et aws-java-sdk => ne peut pas lire la variable d’environnement pour les informations d’identification append hadoop-aws dans maven => divers conflits de dépendance transitifs Quelqu’un a-t-il réussi à faire fonctionner les deux?
Est-il possible de sauvegarder DataFrame directement dans Hive. J’ai essayé de convertir DataFrame en Rdd , puis de l’enregistrer en tant que fichier texte, puis de le charger dans la hive. Mais je me demande si je peux directement enregistrer dataframe à la hive
J’ai écrit un programme Java pour spark. Mais comment l’exécuter et le comstackr depuis la ligne de commande Unix. Dois-je inclure un pot lors de la compilation pour l’exécution
J’essaie de comprendre pourquoi mon groupByKey renvoie les éléments suivants: [(0, ), (1, ), (2, ), (3, ), (4, ), (5, ), (6, ), (7, ), (8, ), (9, )] J’ai des valeurs flatMapped qui ressemblent à ceci: [(0, u’D’), (0, u’D’), (0, u’D’), (0, u’D’), (0, u’D’), (0, u’D’), (0, u’D’), (0, u’D’), (0, […]
100 millions de clients cliquent 100 milliards de fois sur les pages de quelques sites Web (disons 100 sites Web). Et le stream de clics est à votre disposition dans un grand dataset. En utilisant les abstractions d’Apache Spark, quel est le moyen le plus efficace de compter les visiteurs distincts par site Web?
Je suis confus à propos de la mémoire exécuteur et de la mémoire du pilote dans Spark. Les parameters de mon environnement sont les suivants: Mémoire 128 G, 16 CPU pour 9 VM Centos Hadoop 2.5.0-cdh5.2.0 Spark 1.1.0 Informations sur les données d’entrée: Fichier de données de 3,5 Go de HDFS Pour un développement simple, […]
Je travaille avec Spark 2.1.1 sur un jeu de données avec ~ 2000 fonctionnalités et j’essaie de créer un pipeline ML de base, composé de certains transformateurs et d’un classificateur. Supposons, pour simplifier, que le pipeline sur lequel je travaille se compose d’un VectorAssembler, d’un SsortingngIndexer et d’un classificateur, ce qui serait un cas assez […]