org.apache.spark.sql.Encoders java code examples

 protected KeyValueGroupedDataset<String, Tuple2<String, Integer>> generateGroupedDataset() {
  Encoder<Tuple2<String, Integer>> encoder = Encoders.tuple(Encoders.STRING(), Encoders.INT());
  List<Tuple2<String, Integer>> data =
   Arrays.asList(new Tuple2<>("a", 1), new Tuple2<>("a", 2), new Tuple2<>("b", 3));
  Dataset<Tuple2<String, Integer>> ds = spark.createDataset(data, encoder);

  return ds.groupByKey((MapFunction<Tuple2<String, Integer>, String>) value -> value._1(),
   Encoders.STRING());
 }
}

@Test(expected = UnsupportedOperationException.class)
public void testCircularReferenceBean1() {
 CircularReference1Bean bean = new CircularReference1Bean();
 spark.createDataset(Arrays.asList(bean), Encoders.bean(CircularReference1Bean.class));
}

@Test
public void testPrimitiveEncoder() {
 Encoder<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> encoder =
  Encoders.tuple(Encoders.DOUBLE(), Encoders.DECIMAL(), Encoders.DATE(), Encoders.TIMESTAMP(),
   Encoders.FLOAT());
 List<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> data =
  Arrays.asList(new Tuple5<>(
   1.7976931348623157E308, new BigDecimal("0.922337203685477589"),
    Date.valueOf("1970-01-01"), new Timestamp(System.currentTimeMillis()), Float.MAX_VALUE));
 Dataset<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> ds =
  spark.createDataset(data, encoder);
 Assert.assertEquals(data, ds.collectAsList());
}

@Test
public void testTupleEncoder() {
 Encoder<Tuple2<Integer, String>> encoder2 = Encoders.tuple(Encoders.INT(), Encoders.STRING());
 List<Tuple2<Integer, String>> data2 = Arrays.asList(tuple2(1, "a"), tuple2(2, "b"));
 Dataset<Tuple2<Integer, String>> ds2 = spark.createDataset(data2, encoder2);
 Assert.assertEquals(data2, ds2.collectAsList());
 Encoder<Tuple3<Integer, Long, String>> encoder3 =
  Encoders.tuple(Encoders.INT(), Encoders.LONG(), Encoders.STRING());
 List<Tuple3<Integer, Long, String>> data3 =
  Arrays.asList(new Tuple3<>(1, 2L, "a"));
 Dataset<Tuple3<Integer, Long, String>> ds3 = spark.createDataset(data3, encoder3);
 Assert.assertEquals(data3, ds3.collectAsList());
 Encoder<Tuple4<Integer, String, Long, String>> encoder4 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING());
 List<Tuple4<Integer, String, Long, String>> data4 =
  Arrays.asList(new Tuple4<>(1, "b", 2L, "a"));
 Dataset<Tuple4<Integer, String, Long, String>> ds4 = spark.createDataset(data4, encoder4);
 Assert.assertEquals(data4, ds4.collectAsList());
 Encoder<Tuple5<Integer, String, Long, String, Boolean>> encoder5 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING(),
   Encoders.BOOLEAN());
 List<Tuple5<Integer, String, Long, String, Boolean>> data5 =
  Arrays.asList(new Tuple5<>(1, "b", 2L, "a", true));
 Dataset<Tuple5<Integer, String, Long, String, Boolean>> ds5 =
  spark.createDataset(data5, encoder5);
 Assert.assertEquals(data5, ds5.collectAsList());
}

@Test
public void testCollect() {
 List<String> data = Arrays.asList("hello", "world");
 Dataset<String> ds = spark.createDataset(data, Encoders.STRING());
 List<String> collected = ds.collectAsList();
 Assert.assertEquals(Arrays.asList("hello", "world"), collected);
}

    .flatMap(messageRouterFunction(profilerProps, profiles, globals), Encoders.bean(MessageRoute.class));
LOG.debug("Generated {} message route(s)", routes.cache().count());
    .groupByKey(new GroupByPeriodFunction(profilerProps), Encoders.STRING())
    .mapGroups(new ProfileBuilderFunction(profilerProps, globals), Encoders.bean(ProfileMeasurementAdapter.class));
LOG.debug("Produced {} profile measurement(s)", measurements.cache().count());
    .mapPartitions(new HBaseWriterFunction(profilerProps), Encoders.INT())
    .agg(sum("value"))
    .head()

@Test
public void testGroupBy() {
 List<String> data = Arrays.asList("a", "foo", "bar");
 Dataset<String> ds = spark.createDataset(data, Encoders.STRING());
 KeyValueGroupedDataset<Integer, String> grouped =
  ds.groupByKey((MapFunction<String, Integer>) String::length, Encoders.INT());
  }, Encoders.STRING());
  Encoders.STRING());
   Encoders.LONG(),
   Encoders.STRING());
   },
  OutputMode.Append(),
  Encoders.LONG(),
  Encoders.STRING(),
  GroupStateTimeout.NoTimeout());
 Dataset<Integer> ds2 = spark.createDataset(data2, Encoders.INT());
 KeyValueGroupedDataset<Integer, Integer> grouped2 = ds2.groupByKey(
   (MapFunction<Integer, Integer>) v -> v / 2,
  Encoders.INT());
  Encoders.STRING());

@Test
public void testCommonOperation() {
 List<String> data = Arrays.asList("hello", "world");
 Dataset<String> ds = spark.createDataset(data, Encoders.STRING());
 Assert.assertEquals("hello", ds.first());
 Dataset<String> filtered = ds.filter((FilterFunction<String>) v -> v.startsWith("h"));
 Assert.assertEquals(Arrays.asList("hello"), filtered.collectAsList());
 Dataset<Integer> mapped =
  ds.map((MapFunction<String, Integer>) String::length, Encoders.INT());
 Assert.assertEquals(Arrays.asList(5, 5), mapped.collectAsList());
 Dataset<String> parMapped = ds.mapPartitions((MapPartitionsFunction<String, String>) it -> {
  List<String> ls = new LinkedList<>();
  while (it.hasNext()) {
   ls.add(it.next().toUpperCase(Locale.ROOT));
  }
  return ls.iterator();
 }, Encoders.STRING());
 Assert.assertEquals(Arrays.asList("HELLO", "WORLD"), parMapped.collectAsList());
 Dataset<String> flatMapped = ds.flatMap((FlatMapFunction<String, String>) s -> {
  List<String> ls = new LinkedList<>();
  for (char c : s.toCharArray()) {
   ls.add(String.valueOf(c));
  }
  return ls.iterator();
 }, Encoders.STRING());
 Assert.assertEquals(
  Arrays.asList("h", "e", "l", "l", "o", "w", "o", "r", "l", "d"),
  flatMapped.collectAsList());
}

@Test
public void testTupleEncoderSchema() {
 Encoder<Tuple2<String, Tuple2<String,String>>> encoder =
  Encoders.tuple(Encoders.STRING(), Encoders.tuple(Encoders.STRING(), Encoders.STRING()));
 List<Tuple2<String, Tuple2<String, String>>> data = Arrays.asList(tuple2("1", tuple2("a", "b")),
  tuple2("2", tuple2("c", "d")));
 Dataset<Row> ds1 = spark.createDataset(data, encoder).toDF("value1", "value2");
 JavaPairRDD<String, Tuple2<String, String>> pairRDD = jsc.parallelizePairs(data);
 Dataset<Row> ds2 = spark.createDataset(JavaPairRDD.toRDD(pairRDD), encoder)
  .toDF("value1", "value2");
 Assert.assertEquals(ds1.schema(), ds2.schema());
 Assert.assertEquals(ds1.select(expr("value2._1")).collectAsList(),
  ds2.select(expr("value2._1")).collectAsList());
}

 @Override
 public Encoder<Integer> outputEncoder() {
  return Encoders.INT();
 }
}

 /**
  * Specifies the EncoderFactory for the final output value type.
  *
  * @return output encoder.
  */
 public Encoder<Double> outputEncoder() {
  return Encoders.DOUBLE();
 }
}

@Test
public void testTupleEncoder() {
 Encoder<Tuple2<Integer, String>> encoder2 = Encoders.tuple(Encoders.INT(), Encoders.STRING());
 List<Tuple2<Integer, String>> data2 = Arrays.asList(tuple2(1, "a"), tuple2(2, "b"));
 Dataset<Tuple2<Integer, String>> ds2 = spark.createDataset(data2, encoder2);
 Assert.assertEquals(data2, ds2.collectAsList());
 Encoder<Tuple3<Integer, Long, String>> encoder3 =
  Encoders.tuple(Encoders.INT(), Encoders.LONG(), Encoders.STRING());
 List<Tuple3<Integer, Long, String>> data3 =
  Arrays.asList(new Tuple3<>(1, 2L, "a"));
 Dataset<Tuple3<Integer, Long, String>> ds3 = spark.createDataset(data3, encoder3);
 Assert.assertEquals(data3, ds3.collectAsList());
 Encoder<Tuple4<Integer, String, Long, String>> encoder4 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING());
 List<Tuple4<Integer, String, Long, String>> data4 =
  Arrays.asList(new Tuple4<>(1, "b", 2L, "a"));
 Dataset<Tuple4<Integer, String, Long, String>> ds4 = spark.createDataset(data4, encoder4);
 Assert.assertEquals(data4, ds4.collectAsList());
 Encoder<Tuple5<Integer, String, Long, String, Boolean>> encoder5 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING(),
   Encoders.BOOLEAN());
 List<Tuple5<Integer, String, Long, String, Boolean>> data5 =
  Arrays.asList(new Tuple5<>(1, "b", 2L, "a", true));
 Dataset<Tuple5<Integer, String, Long, String, Boolean>> ds5 =
  spark.createDataset(data5, encoder5);
 Assert.assertEquals(data5, ds5.collectAsList());
}

@Test
public void testTake() {
 List<String> data = Arrays.asList("hello", "world");
 Dataset<String> ds = spark.createDataset(data, Encoders.STRING());
 List<String> collected = ds.takeAsList(1);
 Assert.assertEquals(Arrays.asList("hello"), collected);
}

@Test
public void testGroupBy() {
 List<String> data = Arrays.asList("a", "foo", "bar");
 Dataset<String> ds = spark.createDataset(data, Encoders.STRING());
 KeyValueGroupedDataset<Integer, String> grouped =
  ds.groupByKey((MapFunction<String, Integer>) String::length, Encoders.INT());
  }, Encoders.STRING());
  Encoders.STRING());
   Encoders.LONG(),
   Encoders.STRING());
   },
  OutputMode.Append(),
  Encoders.LONG(),
  Encoders.STRING(),
  GroupStateTimeout.NoTimeout());
 Dataset<Integer> ds2 = spark.createDataset(data2, Encoders.INT());
 KeyValueGroupedDataset<Integer, Integer> grouped2 = ds2.groupByKey(
   (MapFunction<Integer, Integer>) v -> v / 2,
  Encoders.INT());
  Encoders.STRING());

@Test
public void testCommonOperation() {
 List<String> data = Arrays.asList("hello", "world");
 Dataset<String> ds = spark.createDataset(data, Encoders.STRING());
 Assert.assertEquals("hello", ds.first());
 Dataset<String> filtered = ds.filter((FilterFunction<String>) v -> v.startsWith("h"));
 Assert.assertEquals(Arrays.asList("hello"), filtered.collectAsList());
 Dataset<Integer> mapped =
  ds.map((MapFunction<String, Integer>) String::length, Encoders.INT());
 Assert.assertEquals(Arrays.asList(5, 5), mapped.collectAsList());
 Dataset<String> parMapped = ds.mapPartitions((MapPartitionsFunction<String, String>) it -> {
  List<String> ls = new LinkedList<>();
  while (it.hasNext()) {
   ls.add(it.next().toUpperCase(Locale.ROOT));
  }
  return ls.iterator();
 }, Encoders.STRING());
 Assert.assertEquals(Arrays.asList("HELLO", "WORLD"), parMapped.collectAsList());
 Dataset<String> flatMapped = ds.flatMap((FlatMapFunction<String, String>) s -> {
  List<String> ls = new LinkedList<>();
  for (char c : s.toCharArray()) {
   ls.add(String.valueOf(c));
  }
  return ls.iterator();
 }, Encoders.STRING());
 Assert.assertEquals(
  Arrays.asList("h", "e", "l", "l", "o", "w", "o", "r", "l", "d"),
  flatMapped.collectAsList());
}

@Test
public void testTupleEncoderSchema() {
 Encoder<Tuple2<String, Tuple2<String,String>>> encoder =
  Encoders.tuple(Encoders.STRING(), Encoders.tuple(Encoders.STRING(), Encoders.STRING()));
 List<Tuple2<String, Tuple2<String, String>>> data = Arrays.asList(tuple2("1", tuple2("a", "b")),
  tuple2("2", tuple2("c", "d")));
 Dataset<Row> ds1 = spark.createDataset(data, encoder).toDF("value1", "value2");
 JavaPairRDD<String, Tuple2<String, String>> pairRDD = jsc.parallelizePairs(data);
 Dataset<Row> ds2 = spark.createDataset(JavaPairRDD.toRDD(pairRDD), encoder)
  .toDF("value1", "value2");
 Assert.assertEquals(ds1.schema(), ds2.schema());
 Assert.assertEquals(ds1.select(expr("value2._1")).collectAsList(),
  ds2.select(expr("value2._1")).collectAsList());
}

 @Override
 public Encoder<Integer> outputEncoder() {
  return Encoders.INT();
 }
}

@Override
public void setUp() throws IOException {
 super.setUp();
 List<java.lang.Double> points = Arrays.asList(0.1, 1.1, 10.1, -1.1);
 dataset = spark.createDataset(points, Encoders.DOUBLE()).toDF("sample");
}

 protected KeyValueGroupedDataset<String, Tuple2<String, Integer>> generateGroupedDataset() {
  Encoder<Tuple2<String, Integer>> encoder = Encoders.tuple(Encoders.STRING(), Encoders.INT());
  List<Tuple2<String, Integer>> data =
   Arrays.asList(new Tuple2<>("a", 1), new Tuple2<>("a", 2), new Tuple2<>("b", 3));
  Dataset<Tuple2<String, Integer>> ds = spark.createDataset(data, encoder);

  return ds.groupByKey((MapFunction<Tuple2<String, Integer>, String>) value -> value._1(),
   Encoders.STRING());
 }
}

@Test
public void testTupleEncoder() {
 Encoder<Tuple2<Integer, String>> encoder2 = Encoders.tuple(Encoders.INT(), Encoders.STRING());
 List<Tuple2<Integer, String>> data2 = Arrays.asList(tuple2(1, "a"), tuple2(2, "b"));
 Dataset<Tuple2<Integer, String>> ds2 = spark.createDataset(data2, encoder2);
 Assert.assertEquals(data2, ds2.collectAsList());
 Encoder<Tuple3<Integer, Long, String>> encoder3 =
  Encoders.tuple(Encoders.INT(), Encoders.LONG(), Encoders.STRING());
 List<Tuple3<Integer, Long, String>> data3 =
  Arrays.asList(new Tuple3<>(1, 2L, "a"));
 Dataset<Tuple3<Integer, Long, String>> ds3 = spark.createDataset(data3, encoder3);
 Assert.assertEquals(data3, ds3.collectAsList());
 Encoder<Tuple4<Integer, String, Long, String>> encoder4 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING());
 List<Tuple4<Integer, String, Long, String>> data4 =
  Arrays.asList(new Tuple4<>(1, "b", 2L, "a"));
 Dataset<Tuple4<Integer, String, Long, String>> ds4 = spark.createDataset(data4, encoder4);
 Assert.assertEquals(data4, ds4.collectAsList());
 Encoder<Tuple5<Integer, String, Long, String, Boolean>> encoder5 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING(),
   Encoders.BOOLEAN());
 List<Tuple5<Integer, String, Long, String, Boolean>> data5 =
  Arrays.asList(new Tuple5<>(1, "b", 2L, "a", true));
 Dataset<Tuple5<Integer, String, Long, String, Boolean>> ds5 =
  spark.createDataset(data5, encoder5);
 Assert.assertEquals(data5, ds5.collectAsList());
}

Most used methods

Popular in Java

Running tasks concurrently on multiple threads
getSupportFragmentManager (FragmentActivity)
startActivity (Activity)
getSharedPreferences (Context)
InputStreamReader (java.io)
A class for turning a byte stream into a character stream. Data read from the source input stream is
Calendar (java.util)
Calendar is an abstract base class for converting between a Date object and a set of integer fields
Vector (java.util)
Vector is an implementation of List, backed by an array and synchronized. All optional operations in
Manifest (java.util.jar)
The Manifest class is used to obtain attribute information for a JarFile and its entries.
StringUtils (org.apache.commons.lang)
Operations on java.lang.String that arenull safe. * IsEmpty/IsBlank - checks if a String contains
DateTimeFormat (org.joda.time.format)
Factory that creates instances of DateTimeFormatter from patterns and styles. Datetime formatting i
Best plugins for Eclipse

How to useEncoders in org.apache.spark.sql

Best Java code snippets using org.apache.spark.sql.Encoders (Showing top 20 results out of 315)

How to use
Encoders
in
org.apache.spark.sql