org.apache.spark.sql.Dataset.schema java code examples

@Test
public void testTypedFilterPreservingSchema() {
 Dataset<Long> ds = spark.range(10);
 Dataset<Long> ds2 = ds.filter((FilterFunction<Long>) value -> value > 3);
 Assert.assertEquals(ds.schema(), ds2.schema());
}

@Test
public void testTypedFilterPreservingSchema() {
 Dataset<Long> ds = spark.range(10);
 Dataset<Long> ds2 = ds.filter((FilterFunction<Long>) value -> value > 3);
 Assert.assertEquals(ds.schema(), ds2.schema());
}

@Test
public void testTypedFilterPreservingSchema() {
 Dataset<Long> ds = spark.range(10);
 Dataset<Long> ds2 = ds.filter((FilterFunction<Long>) value -> value > 3);
 Assert.assertEquals(ds.schema(), ds2.schema());
}

@Test
public void testBeanWithoutGetter() {
 BeanWithoutGetter bean = new BeanWithoutGetter();
 List<BeanWithoutGetter> data = Arrays.asList(bean);
 Dataset<Row> df = spark.createDataFrame(data, BeanWithoutGetter.class);
 Assert.assertEquals(df.schema().length(), 0);
 Assert.assertEquals(df.collectAsList().size(), 1);
}

@Test
public void testBeanWithoutGetter() {
 BeanWithoutGetter bean = new BeanWithoutGetter();
 List<BeanWithoutGetter> data = Arrays.asList(bean);
 Dataset<Row> df = spark.createDataFrame(data, BeanWithoutGetter.class);
 Assert.assertEquals(df.schema().length(), 0);
 Assert.assertEquals(df.collectAsList().size(), 1);
}

@Test
public void testBeanWithoutGetter() {
 BeanWithoutGetter bean = new BeanWithoutGetter();
 List<BeanWithoutGetter> data = Arrays.asList(bean);
 Dataset<Row> df = spark.createDataFrame(data, BeanWithoutGetter.class);
 Assert.assertEquals(df.schema().length(), 0);
 Assert.assertEquals(df.collectAsList().size(), 1);
}

@Test
public void testEmptyBean() {
 EmptyBean bean = new EmptyBean();
 List<EmptyBean> data = Arrays.asList(bean);
 Dataset<EmptyBean> df = spark.createDataset(data, Encoders.bean(EmptyBean.class));
 Assert.assertEquals(df.schema().length(), 0);
 Assert.assertEquals(df.collectAsList().size(), 1);
}

@Test
public void testEmptyBean() {
 EmptyBean bean = new EmptyBean();
 List<EmptyBean> data = Arrays.asList(bean);
 Dataset<EmptyBean> df = spark.createDataset(data, Encoders.bean(EmptyBean.class));
 Assert.assertEquals(df.schema().length(), 0);
 Assert.assertEquals(df.collectAsList().size(), 1);
}

@Test
public void testEmptyBean() {
 EmptyBean bean = new EmptyBean();
 List<EmptyBean> data = Arrays.asList(bean);
 Dataset<EmptyBean> df = spark.createDataset(data, Encoders.bean(EmptyBean.class));
 Assert.assertEquals(df.schema().length(), 0);
 Assert.assertEquals(df.collectAsList().size(), 1);
}

StructType actualSchema1 = df1.schema();
Assert.assertEquals(expectedSchema, actualSchema1);
df1.createOrReplaceTempView("jsonTable1");
StructType actualSchema2 = df2.schema();
Assert.assertEquals(expectedSchema, actualSchema2);
df2.createOrReplaceTempView("jsonTable2");

StructType actualSchema1 = df1.schema();
Assert.assertEquals(expectedSchema, actualSchema1);
df1.createOrReplaceTempView("jsonTable1");
StructType actualSchema2 = df2.schema();
Assert.assertEquals(expectedSchema, actualSchema2);
df2.createOrReplaceTempView("jsonTable2");

StructType actualSchema1 = df1.schema();
Assert.assertEquals(expectedSchema, actualSchema1);
df1.createOrReplaceTempView("jsonTable1");
StructType actualSchema2 = df2.schema();
Assert.assertEquals(expectedSchema, actualSchema2);
df2.createOrReplaceTempView("jsonTable2");

@Test
public void testCrosstab() {
 Dataset<Row> df = spark.table("testData2");
 Dataset<Row> crosstab = df.stat().crosstab("a", "b");
 String[] columnNames = crosstab.schema().fieldNames();
 Assert.assertEquals("a_b", columnNames[0]);
 Assert.assertEquals("1", columnNames[1]);
 Assert.assertEquals("2", columnNames[2]);
 List<Row> rows = crosstab.collectAsList();
 rows.sort(crosstabRowComparator);
 Integer count = 1;
 for (Row row : rows) {
  Assert.assertEquals(row.get(0).toString(), count.toString());
  Assert.assertEquals(1L, row.getLong(1));
  Assert.assertEquals(1L, row.getLong(2));
  count++;
 }
}

@Test
public void testCrosstab() {
 Dataset<Row> df = spark.table("testData2");
 Dataset<Row> crosstab = df.stat().crosstab("a", "b");
 String[] columnNames = crosstab.schema().fieldNames();
 Assert.assertEquals("a_b", columnNames[0]);
 Assert.assertEquals("1", columnNames[1]);
 Assert.assertEquals("2", columnNames[2]);
 List<Row> rows = crosstab.collectAsList();
 rows.sort(crosstabRowComparator);
 Integer count = 1;
 for (Row row : rows) {
  Assert.assertEquals(row.get(0).toString(), count.toString());
  Assert.assertEquals(1L, row.getLong(1));
  Assert.assertEquals(1L, row.getLong(2));
  count++;
 }
}

@Test
public void testCrosstab() {
 Dataset<Row> df = spark.table("testData2");
 Dataset<Row> crosstab = df.stat().crosstab("a", "b");
 String[] columnNames = crosstab.schema().fieldNames();
 Assert.assertEquals("a_b", columnNames[0]);
 Assert.assertEquals("1", columnNames[1]);
 Assert.assertEquals("2", columnNames[2]);
 List<Row> rows = crosstab.collectAsList();
 rows.sort(crosstabRowComparator);
 Integer count = 1;
 for (Row row : rows) {
  Assert.assertEquals(row.get(0).toString(), count.toString());
  Assert.assertEquals(1L, row.getLong(1));
  Assert.assertEquals(1L, row.getLong(2));
  count++;
 }
}

@Test
public void testTupleEncoderSchema() {
 Encoder<Tuple2<String, Tuple2<String,String>>> encoder =
  Encoders.tuple(Encoders.STRING(), Encoders.tuple(Encoders.STRING(), Encoders.STRING()));
 List<Tuple2<String, Tuple2<String, String>>> data = Arrays.asList(tuple2("1", tuple2("a", "b")),
  tuple2("2", tuple2("c", "d")));
 Dataset<Row> ds1 = spark.createDataset(data, encoder).toDF("value1", "value2");
 JavaPairRDD<String, Tuple2<String, String>> pairRDD = jsc.parallelizePairs(data);
 Dataset<Row> ds2 = spark.createDataset(JavaPairRDD.toRDD(pairRDD), encoder)
  .toDF("value1", "value2");
 Assert.assertEquals(ds1.schema(), ds2.schema());
 Assert.assertEquals(ds1.select(expr("value2._1")).collectAsList(),
  ds2.select(expr("value2._1")).collectAsList());
}

@Test
public void testTupleEncoderSchema() {
 Encoder<Tuple2<String, Tuple2<String,String>>> encoder =
  Encoders.tuple(Encoders.STRING(), Encoders.tuple(Encoders.STRING(), Encoders.STRING()));
 List<Tuple2<String, Tuple2<String, String>>> data = Arrays.asList(tuple2("1", tuple2("a", "b")),
  tuple2("2", tuple2("c", "d")));
 Dataset<Row> ds1 = spark.createDataset(data, encoder).toDF("value1", "value2");
 JavaPairRDD<String, Tuple2<String, String>> pairRDD = jsc.parallelizePairs(data);
 Dataset<Row> ds2 = spark.createDataset(JavaPairRDD.toRDD(pairRDD), encoder)
  .toDF("value1", "value2");
 Assert.assertEquals(ds1.schema(), ds2.schema());
 Assert.assertEquals(ds1.select(expr("value2._1")).collectAsList(),
  ds2.select(expr("value2._1")).collectAsList());
}

void validateDataFrameWithBeans(Bean bean, Dataset<Row> df) {
 StructType schema = df.schema();
 Assert.assertEquals(new StructField("a", DoubleType$.MODULE$, false, Metadata.empty()),
  schema.apply("a"));

void validateDataFrameWithBeans(Bean bean, Dataset<Row> df) {
 StructType schema = df.schema();
 Assert.assertEquals(new StructField("a", DoubleType$.MODULE$, false, Metadata.empty()),
  schema.apply("a"));

void validateDataFrameWithBeans(Bean bean, Dataset<Row> df) {
 StructType schema = df.schema();
 Assert.assertEquals(new StructField("a", DoubleType$.MODULE$, false, Metadata.empty()),
  schema.apply("a"));

Popular methods of Dataset

Popular in Java

Making http requests using okhttp
compareTo (BigDecimal)
onRequestPermissionsResult (Fragment)
requestLocationUpdates (LocationManager)
InputStreamReader (java.io)
A class for turning a byte stream into a character stream. Data read from the source input stream is
DateFormat (java.text)
Formats or parses dates and times.This class provides factories for obtaining instances configured f
Calendar (java.util)
Calendar is an abstract base class for converting between a Date object and a set of integer fields
Response (javax.ws.rs.core)
Defines the contract between a returned instance and the runtime when an application needs to provid
Join (org.hibernate.mapping)
Table (org.hibernate.mapping)
A relational table
Best IntelliJ plugins

How to use schemamethodin org.apache.spark.sql.Dataset

Best Java code snippets using org.apache.spark.sql.Dataset.schema (Showing top 20 results out of 315)

How to use
schema
method
in
org.apache.spark.sql.Dataset