org.apache.spark.sql.Encoders.tuple java code examples

 protected KeyValueGroupedDataset<String, Tuple2<String, Integer>> generateGroupedDataset() {
  Encoder<Tuple2<String, Integer>> encoder = Encoders.tuple(Encoders.STRING(), Encoders.INT());
  List<Tuple2<String, Integer>> data =
   Arrays.asList(new Tuple2<>("a", 1), new Tuple2<>("a", 2), new Tuple2<>("b", 3));
  Dataset<Tuple2<String, Integer>> ds = spark.createDataset(data, encoder);

  return ds.groupByKey((MapFunction<Tuple2<String, Integer>, String>) value -> value._1(),
   Encoders.STRING());
 }
}

 protected KeyValueGroupedDataset<String, Tuple2<String, Integer>> generateGroupedDataset() {
  Encoder<Tuple2<String, Integer>> encoder = Encoders.tuple(Encoders.STRING(), Encoders.INT());
  List<Tuple2<String, Integer>> data =
   Arrays.asList(new Tuple2<>("a", 1), new Tuple2<>("a", 2), new Tuple2<>("b", 3));
  Dataset<Tuple2<String, Integer>> ds = spark.createDataset(data, encoder);

  return ds.groupByKey((MapFunction<Tuple2<String, Integer>, String>) value -> value._1(),
   Encoders.STRING());
 }
}

 protected KeyValueGroupedDataset<String, Tuple2<String, Integer>> generateGroupedDataset() {
  Encoder<Tuple2<String, Integer>> encoder = Encoders.tuple(Encoders.STRING(), Encoders.INT());
  List<Tuple2<String, Integer>> data =
   Arrays.asList(new Tuple2<>("a", 1), new Tuple2<>("a", 2), new Tuple2<>("b", 3));
  Dataset<Tuple2<String, Integer>> ds = spark.createDataset(data, encoder);

  return ds.groupByKey((MapFunction<Tuple2<String, Integer>, String>) value -> value._1(),
   Encoders.STRING());
 }
}

@Test
public void testPrimitiveEncoder() {
 Encoder<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> encoder =
  Encoders.tuple(Encoders.DOUBLE(), Encoders.DECIMAL(), Encoders.DATE(), Encoders.TIMESTAMP(),
   Encoders.FLOAT());
 List<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> data =
  Arrays.asList(new Tuple5<>(
   1.7976931348623157E308, new BigDecimal("0.922337203685477589"),
    Date.valueOf("1970-01-01"), new Timestamp(System.currentTimeMillis()), Float.MAX_VALUE));
 Dataset<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> ds =
  spark.createDataset(data, encoder);
 Assert.assertEquals(data, ds.collectAsList());
}

@Test
public void testPrimitiveEncoder() {
 Encoder<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> encoder =
  Encoders.tuple(Encoders.DOUBLE(), Encoders.DECIMAL(), Encoders.DATE(), Encoders.TIMESTAMP(),
   Encoders.FLOAT());
 List<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> data =
  Arrays.asList(new Tuple5<>(
   1.7976931348623157E308, new BigDecimal("0.922337203685477589"),
    Date.valueOf("1970-01-01"), new Timestamp(System.currentTimeMillis()), Float.MAX_VALUE));
 Dataset<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> ds =
  spark.createDataset(data, encoder);
 Assert.assertEquals(data, ds.collectAsList());
}

@Test
public void testPrimitiveEncoder() {
 Encoder<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> encoder =
  Encoders.tuple(Encoders.DOUBLE(), Encoders.DECIMAL(), Encoders.DATE(), Encoders.TIMESTAMP(),
   Encoders.FLOAT());
 List<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> data =
  Arrays.asList(new Tuple5<>(
   1.7976931348623157E308, new BigDecimal("0.922337203685477589"),
    Date.valueOf("1970-01-01"), new Timestamp(System.currentTimeMillis()), Float.MAX_VALUE));
 Dataset<Tuple5<Double, BigDecimal, Date, Timestamp, Float>> ds =
  spark.createDataset(data, encoder);
 Assert.assertEquals(data, ds.collectAsList());
}

@Test
public void testTypedAggregationAnonClass() {
 KeyValueGroupedDataset<String, Tuple2<String, Integer>> grouped = generateGroupedDataset();
 Dataset<Tuple2<String, Integer>> agged = grouped.agg(new IntSumOf().toColumn());
 Assert.assertEquals(
   Arrays.asList(new Tuple2<>("a", 3), new Tuple2<>("b", 3)),
   agged.collectAsList());
 Dataset<Tuple2<String, Integer>> agged2 = grouped.agg(new IntSumOf().toColumn())
  .as(Encoders.tuple(Encoders.STRING(), Encoders.INT()));
 Assert.assertEquals(
  Arrays.asList(
   new Tuple2<>("a", 3),
   new Tuple2<>("b", 3)),
  agged2.collectAsList());
}

@Test
public void testTypedAggregationAnonClass() {
 KeyValueGroupedDataset<String, Tuple2<String, Integer>> grouped = generateGroupedDataset();
 Dataset<Tuple2<String, Integer>> agged = grouped.agg(new IntSumOf().toColumn());
 Assert.assertEquals(
   Arrays.asList(new Tuple2<>("a", 3), new Tuple2<>("b", 3)),
   agged.collectAsList());
 Dataset<Tuple2<String, Integer>> agged2 = grouped.agg(new IntSumOf().toColumn())
  .as(Encoders.tuple(Encoders.STRING(), Encoders.INT()));
 Assert.assertEquals(
  Arrays.asList(
   new Tuple2<>("a", 3),
   new Tuple2<>("b", 3)),
  agged2.collectAsList());
}

@Test
public void testTypedAggregationAnonClass() {
 KeyValueGroupedDataset<String, Tuple2<String, Integer>> grouped = generateGroupedDataset();
 Dataset<Tuple2<String, Integer>> agged = grouped.agg(new IntSumOf().toColumn());
 Assert.assertEquals(
   Arrays.asList(new Tuple2<>("a", 3), new Tuple2<>("b", 3)),
   agged.collectAsList());
 Dataset<Tuple2<String, Integer>> agged2 = grouped.agg(new IntSumOf().toColumn())
  .as(Encoders.tuple(Encoders.STRING(), Encoders.INT()));
 Assert.assertEquals(
  Arrays.asList(
   new Tuple2<>("a", 3),
   new Tuple2<>("b", 3)),
  agged2.collectAsList());
}

@Test
public void testNestedTupleEncoder() {
 // test ((int, string), string)
 Encoder<Tuple2<Tuple2<Integer, String>, String>> encoder =
  Encoders.tuple(Encoders.tuple(Encoders.INT(), Encoders.STRING()), Encoders.STRING());
 List<Tuple2<Tuple2<Integer, String>, String>> data =
  Arrays.asList(tuple2(tuple2(1, "a"), "a"), tuple2(tuple2(2, "b"), "b"));
 Dataset<Tuple2<Tuple2<Integer, String>, String>> ds = spark.createDataset(data, encoder);
 Assert.assertEquals(data, ds.collectAsList());
 // test (int, (string, string, long))
 Encoder<Tuple2<Integer, Tuple3<String, String, Long>>> encoder2 =
  Encoders.tuple(Encoders.INT(),
   Encoders.tuple(Encoders.STRING(), Encoders.STRING(), Encoders.LONG()));
 List<Tuple2<Integer, Tuple3<String, String, Long>>> data2 =
  Arrays.asList(tuple2(1, new Tuple3<>("a", "b", 3L)));
 Dataset<Tuple2<Integer, Tuple3<String, String, Long>>> ds2 =
  spark.createDataset(data2, encoder2);
 Assert.assertEquals(data2, ds2.collectAsList());
 // test (int, ((string, long), string))
 Encoder<Tuple2<Integer, Tuple2<Tuple2<String, Long>, String>>> encoder3 =
  Encoders.tuple(Encoders.INT(),
   Encoders.tuple(Encoders.tuple(Encoders.STRING(), Encoders.LONG()), Encoders.STRING()));
 List<Tuple2<Integer, Tuple2<Tuple2<String, Long>, String>>> data3 =
  Arrays.asList(tuple2(1, tuple2(tuple2("a", 2L), "b")));
 Dataset<Tuple2<Integer, Tuple2<Tuple2<String, Long>, String>>> ds3 =
  spark.createDataset(data3, encoder3);
 Assert.assertEquals(data3, ds3.collectAsList());
}

@Test
public void testNestedTupleEncoder() {
 // test ((int, string), string)
 Encoder<Tuple2<Tuple2<Integer, String>, String>> encoder =
  Encoders.tuple(Encoders.tuple(Encoders.INT(), Encoders.STRING()), Encoders.STRING());
 List<Tuple2<Tuple2<Integer, String>, String>> data =
  Arrays.asList(tuple2(tuple2(1, "a"), "a"), tuple2(tuple2(2, "b"), "b"));
 Dataset<Tuple2<Tuple2<Integer, String>, String>> ds = spark.createDataset(data, encoder);
 Assert.assertEquals(data, ds.collectAsList());
 // test (int, (string, string, long))
 Encoder<Tuple2<Integer, Tuple3<String, String, Long>>> encoder2 =
  Encoders.tuple(Encoders.INT(),
   Encoders.tuple(Encoders.STRING(), Encoders.STRING(), Encoders.LONG()));
 List<Tuple2<Integer, Tuple3<String, String, Long>>> data2 =
  Arrays.asList(tuple2(1, new Tuple3<>("a", "b", 3L)));
 Dataset<Tuple2<Integer, Tuple3<String, String, Long>>> ds2 =
  spark.createDataset(data2, encoder2);
 Assert.assertEquals(data2, ds2.collectAsList());
 // test (int, ((string, long), string))
 Encoder<Tuple2<Integer, Tuple2<Tuple2<String, Long>, String>>> encoder3 =
  Encoders.tuple(Encoders.INT(),
   Encoders.tuple(Encoders.tuple(Encoders.STRING(), Encoders.LONG()), Encoders.STRING()));
 List<Tuple2<Integer, Tuple2<Tuple2<String, Long>, String>>> data3 =
  Arrays.asList(tuple2(1, tuple2(tuple2("a", 2L), "b")));
 Dataset<Tuple2<Integer, Tuple2<Tuple2<String, Long>, String>>> ds3 =
  spark.createDataset(data3, encoder3);
 Assert.assertEquals(data3, ds3.collectAsList());
}

@Test
public void testNestedTupleEncoder() {
 // test ((int, string), string)
 Encoder<Tuple2<Tuple2<Integer, String>, String>> encoder =
  Encoders.tuple(Encoders.tuple(Encoders.INT(), Encoders.STRING()), Encoders.STRING());
 List<Tuple2<Tuple2<Integer, String>, String>> data =
  Arrays.asList(tuple2(tuple2(1, "a"), "a"), tuple2(tuple2(2, "b"), "b"));
 Dataset<Tuple2<Tuple2<Integer, String>, String>> ds = spark.createDataset(data, encoder);
 Assert.assertEquals(data, ds.collectAsList());
 // test (int, (string, string, long))
 Encoder<Tuple2<Integer, Tuple3<String, String, Long>>> encoder2 =
  Encoders.tuple(Encoders.INT(),
   Encoders.tuple(Encoders.STRING(), Encoders.STRING(), Encoders.LONG()));
 List<Tuple2<Integer, Tuple3<String, String, Long>>> data2 =
  Arrays.asList(tuple2(1, new Tuple3<>("a", "b", 3L)));
 Dataset<Tuple2<Integer, Tuple3<String, String, Long>>> ds2 =
  spark.createDataset(data2, encoder2);
 Assert.assertEquals(data2, ds2.collectAsList());
 // test (int, ((string, long), string))
 Encoder<Tuple2<Integer, Tuple2<Tuple2<String, Long>, String>>> encoder3 =
  Encoders.tuple(Encoders.INT(),
   Encoders.tuple(Encoders.tuple(Encoders.STRING(), Encoders.LONG()), Encoders.STRING()));
 List<Tuple2<Integer, Tuple2<Tuple2<String, Long>, String>>> data3 =
  Arrays.asList(tuple2(1, tuple2(tuple2("a", 2L), "b")));
 Dataset<Tuple2<Integer, Tuple2<Tuple2<String, Long>, String>>> ds3 =
  spark.createDataset(data3, encoder3);
 Assert.assertEquals(data3, ds3.collectAsList());
}

@Test
public void testSelect() {
 List<Integer> data = Arrays.asList(2, 6);
 Dataset<Integer> ds = spark.createDataset(data, Encoders.INT());
 Dataset<Tuple2<Integer, String>> selected = ds.select(
  expr("value + 1"),
  col("value").cast("string")).as(Encoders.tuple(Encoders.INT(), Encoders.STRING()));
 Assert.assertEquals(
  Arrays.asList(tuple2(3, "2"), tuple2(7, "6")),
  selected.collectAsList());
}

@Test
public void testSelect() {
 List<Integer> data = Arrays.asList(2, 6);
 Dataset<Integer> ds = spark.createDataset(data, Encoders.INT());
 Dataset<Tuple2<Integer, String>> selected = ds.select(
  expr("value + 1"),
  col("value").cast("string")).as(Encoders.tuple(Encoders.INT(), Encoders.STRING()));
 Assert.assertEquals(
  Arrays.asList(tuple2(3, "2"), tuple2(7, "6")),
  selected.collectAsList());
}

@Test
public void testSelect() {
 List<Integer> data = Arrays.asList(2, 6);
 Dataset<Integer> ds = spark.createDataset(data, Encoders.INT());
 Dataset<Tuple2<Integer, String>> selected = ds.select(
  expr("value + 1"),
  col("value").cast("string")).as(Encoders.tuple(Encoders.INT(), Encoders.STRING()));
 Assert.assertEquals(
  Arrays.asList(tuple2(3, "2"), tuple2(7, "6")),
  selected.collectAsList());
}

@Test
public void testTupleEncoder() {
 Encoder<Tuple2<Integer, String>> encoder2 = Encoders.tuple(Encoders.INT(), Encoders.STRING());
 List<Tuple2<Integer, String>> data2 = Arrays.asList(tuple2(1, "a"), tuple2(2, "b"));
 Dataset<Tuple2<Integer, String>> ds2 = spark.createDataset(data2, encoder2);
 Assert.assertEquals(data2, ds2.collectAsList());
 Encoder<Tuple3<Integer, Long, String>> encoder3 =
  Encoders.tuple(Encoders.INT(), Encoders.LONG(), Encoders.STRING());
 List<Tuple3<Integer, Long, String>> data3 =
  Arrays.asList(new Tuple3<>(1, 2L, "a"));
 Dataset<Tuple3<Integer, Long, String>> ds3 = spark.createDataset(data3, encoder3);
 Assert.assertEquals(data3, ds3.collectAsList());
 Encoder<Tuple4<Integer, String, Long, String>> encoder4 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING());
 List<Tuple4<Integer, String, Long, String>> data4 =
  Arrays.asList(new Tuple4<>(1, "b", 2L, "a"));
 Dataset<Tuple4<Integer, String, Long, String>> ds4 = spark.createDataset(data4, encoder4);
 Assert.assertEquals(data4, ds4.collectAsList());
 Encoder<Tuple5<Integer, String, Long, String, Boolean>> encoder5 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING(),
   Encoders.BOOLEAN());
 List<Tuple5<Integer, String, Long, String, Boolean>> data5 =
  Arrays.asList(new Tuple5<>(1, "b", 2L, "a", true));
 Dataset<Tuple5<Integer, String, Long, String, Boolean>> ds5 =
  spark.createDataset(data5, encoder5);
 Assert.assertEquals(data5, ds5.collectAsList());
}

@Test
public void testTupleEncoder() {
 Encoder<Tuple2<Integer, String>> encoder2 = Encoders.tuple(Encoders.INT(), Encoders.STRING());
 List<Tuple2<Integer, String>> data2 = Arrays.asList(tuple2(1, "a"), tuple2(2, "b"));
 Dataset<Tuple2<Integer, String>> ds2 = spark.createDataset(data2, encoder2);
 Assert.assertEquals(data2, ds2.collectAsList());
 Encoder<Tuple3<Integer, Long, String>> encoder3 =
  Encoders.tuple(Encoders.INT(), Encoders.LONG(), Encoders.STRING());
 List<Tuple3<Integer, Long, String>> data3 =
  Arrays.asList(new Tuple3<>(1, 2L, "a"));
 Dataset<Tuple3<Integer, Long, String>> ds3 = spark.createDataset(data3, encoder3);
 Assert.assertEquals(data3, ds3.collectAsList());
 Encoder<Tuple4<Integer, String, Long, String>> encoder4 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING());
 List<Tuple4<Integer, String, Long, String>> data4 =
  Arrays.asList(new Tuple4<>(1, "b", 2L, "a"));
 Dataset<Tuple4<Integer, String, Long, String>> ds4 = spark.createDataset(data4, encoder4);
 Assert.assertEquals(data4, ds4.collectAsList());
 Encoder<Tuple5<Integer, String, Long, String, Boolean>> encoder5 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING(),
   Encoders.BOOLEAN());
 List<Tuple5<Integer, String, Long, String, Boolean>> data5 =
  Arrays.asList(new Tuple5<>(1, "b", 2L, "a", true));
 Dataset<Tuple5<Integer, String, Long, String, Boolean>> ds5 =
  spark.createDataset(data5, encoder5);
 Assert.assertEquals(data5, ds5.collectAsList());
}

@Test
public void testTupleEncoder() {
 Encoder<Tuple2<Integer, String>> encoder2 = Encoders.tuple(Encoders.INT(), Encoders.STRING());
 List<Tuple2<Integer, String>> data2 = Arrays.asList(tuple2(1, "a"), tuple2(2, "b"));
 Dataset<Tuple2<Integer, String>> ds2 = spark.createDataset(data2, encoder2);
 Assert.assertEquals(data2, ds2.collectAsList());
 Encoder<Tuple3<Integer, Long, String>> encoder3 =
  Encoders.tuple(Encoders.INT(), Encoders.LONG(), Encoders.STRING());
 List<Tuple3<Integer, Long, String>> data3 =
  Arrays.asList(new Tuple3<>(1, 2L, "a"));
 Dataset<Tuple3<Integer, Long, String>> ds3 = spark.createDataset(data3, encoder3);
 Assert.assertEquals(data3, ds3.collectAsList());
 Encoder<Tuple4<Integer, String, Long, String>> encoder4 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING());
 List<Tuple4<Integer, String, Long, String>> data4 =
  Arrays.asList(new Tuple4<>(1, "b", 2L, "a"));
 Dataset<Tuple4<Integer, String, Long, String>> ds4 = spark.createDataset(data4, encoder4);
 Assert.assertEquals(data4, ds4.collectAsList());
 Encoder<Tuple5<Integer, String, Long, String, Boolean>> encoder5 =
  Encoders.tuple(Encoders.INT(), Encoders.STRING(), Encoders.LONG(), Encoders.STRING(),
   Encoders.BOOLEAN());
 List<Tuple5<Integer, String, Long, String, Boolean>> data5 =
  Arrays.asList(new Tuple5<>(1, "b", 2L, "a", true));
 Dataset<Tuple5<Integer, String, Long, String, Boolean>> ds5 =
  spark.createDataset(data5, encoder5);
 Assert.assertEquals(data5, ds5.collectAsList());
}

@Test
public void testTupleEncoderSchema() {
 Encoder<Tuple2<String, Tuple2<String,String>>> encoder =
  Encoders.tuple(Encoders.STRING(), Encoders.tuple(Encoders.STRING(), Encoders.STRING()));
 List<Tuple2<String, Tuple2<String, String>>> data = Arrays.asList(tuple2("1", tuple2("a", "b")),
  tuple2("2", tuple2("c", "d")));
 Dataset<Row> ds1 = spark.createDataset(data, encoder).toDF("value1", "value2");
 JavaPairRDD<String, Tuple2<String, String>> pairRDD = jsc.parallelizePairs(data);
 Dataset<Row> ds2 = spark.createDataset(JavaPairRDD.toRDD(pairRDD), encoder)
  .toDF("value1", "value2");
 Assert.assertEquals(ds1.schema(), ds2.schema());
 Assert.assertEquals(ds1.select(expr("value2._1")).collectAsList(),
  ds2.select(expr("value2._1")).collectAsList());
}

@Test
public void testTupleEncoderSchema() {
 Encoder<Tuple2<String, Tuple2<String,String>>> encoder =
  Encoders.tuple(Encoders.STRING(), Encoders.tuple(Encoders.STRING(), Encoders.STRING()));
 List<Tuple2<String, Tuple2<String, String>>> data = Arrays.asList(tuple2("1", tuple2("a", "b")),
  tuple2("2", tuple2("c", "d")));
 Dataset<Row> ds1 = spark.createDataset(data, encoder).toDF("value1", "value2");
 JavaPairRDD<String, Tuple2<String, String>> pairRDD = jsc.parallelizePairs(data);
 Dataset<Row> ds2 = spark.createDataset(JavaPairRDD.toRDD(pairRDD), encoder)
  .toDF("value1", "value2");
 Assert.assertEquals(ds1.schema(), ds2.schema());
 Assert.assertEquals(ds1.select(expr("value2._1")).collectAsList(),
  ds2.select(expr("value2._1")).collectAsList());
}

Popular methods of Encoders

Popular in Java

Reading from database using SQL prepared statement
orElseThrow (Optional)
Return the contained value, if present, otherwise throw an exception to be created by the provided s
addToBackStack (FragmentTransaction)
onCreateOptionsMenu (Activity)
PrintStream (java.io)
Fake signature of an existing Java class.
URI (java.net)
A Uniform Resource Identifier that identifies an abstract or physical resource, as specified by RFC
SortedSet (java.util)
SortedSet is a Set which iterates over its elements in a sorted order. The order is determined eithe
AtomicInteger (java.util.concurrent.atomic)
An int value that may be updated atomically. See the java.util.concurrent.atomic package specificati
Servlet (javax.servlet)
Defines methods that all servlets must implement. A servlet is a small Java program that runs within
Annotation (javassist.bytecode.annotation)
The annotation structure.An instance of this class is returned bygetAnnotations() in AnnotationsAttr
Top Sublime Text plugins

How to use tuplemethodin org.apache.spark.sql.Encoders

Best Java code snippets using org.apache.spark.sql.Encoders.tuple (Showing top 20 results out of 315)

How to use
tuple
method
in
org.apache.spark.sql.Encoders