org.apache.spark.sql.DataFrameReader.schema java code examples

@Test
public void testParquetAPI() {
 spark.read().schema(schema).parquet();
 spark.read().schema(schema).parquet(input);
 spark.read().schema(schema).parquet(input, input, input);
 spark.read().schema(schema).parquet(new String[] { input, input })
   .write().parquet(output);
}

 /**
  * This only tests whether API compiles, but does not run it as orc()
  * cannot be run without Hive classes.
  */
 public void testOrcAPI() {
  spark.read().schema(schema).orc();
  spark.read().schema(schema).orc(input);
  spark.read().schema(schema).orc(input, input, input);
  spark.read().schema(schema).orc(new String[]{input, input})
    .write().orc(output);
 }
}

 /**
  * This only tests whether API compiles, but does not run it as orc()
  * cannot be run without Hive classes.
  */
 public void testOrcAPI() {
  spark.read().schema(schema).orc();
  spark.read().schema(schema).orc(input);
  spark.read().schema(schema).orc(input, input, input);
  spark.read().schema(schema).orc(new String[]{input, input})
    .write().orc(output);
 }
}

 /**
  * This only tests whether API compiles, but does not run it as orc()
  * cannot be run without Hive classes.
  */
 public void testOrcAPI() {
  spark.read().schema(schema).orc();
  spark.read().schema(schema).orc(input);
  spark.read().schema(schema).orc(input, input, input);
  spark.read().schema(schema).orc(new String[]{input, input})
    .write().orc(output);
 }
}

@Test
public void testParquetAPI() {
 spark.read().schema(schema).parquet();
 spark.read().schema(schema).parquet(input);
 spark.read().schema(schema).parquet(input, input, input);
 spark.read().schema(schema).parquet(new String[] { input, input })
   .write().parquet(output);
}

@Test
public void testJsonAPI() {
 spark.read().schema(schema).json();
 spark.read().schema(schema).json(input);
 spark.read().schema(schema).json(input, input, input);
 spark.read().schema(schema).json(new String[]{input, input})
   .write().json(output);
}

@Test
public void testCsvAPI() {
 spark.read().schema(schema).csv();
 spark.read().schema(schema).csv(input);
 spark.read().schema(schema).csv(input, input, input);
 spark.read().schema(schema).csv(new String[]{input, input})
   .write().csv(output);
}

@Test
public void testCsvAPI() {
 spark.read().schema(schema).csv();
 spark.read().schema(schema).csv(input);
 spark.read().schema(schema).csv(input, input, input);
 spark.read().schema(schema).csv(new String[]{input, input})
   .write().csv(output);
}

@Test
public void testJsonAPI() {
 spark.read().schema(schema).json();
 spark.read().schema(schema).json(input);
 spark.read().schema(schema).json(input, input, input);
 spark.read().schema(schema).json(new String[]{input, input})
   .write().json(output);
}

@Test
public void testJsonAPI() {
 spark.read().schema(schema).json();
 spark.read().schema(schema).json(input);
 spark.read().schema(schema).json(input, input, input);
 spark.read().schema(schema).json(new String[]{input, input})
   .write().json(output);
}

@Test
public void testCsvAPI() {
 spark.read().schema(schema).csv();
 spark.read().schema(schema).csv(input);
 spark.read().schema(schema).csv(input, input, input);
 spark.read().schema(schema).csv(new String[]{input, input})
   .write().csv(output);
}

@Test
public void testParquetAPI() {
 spark.read().schema(schema).parquet();
 spark.read().schema(schema).parquet(input);
 spark.read().schema(schema).parquet(input, input, input);
 spark.read().schema(schema).parquet(new String[] { input, input })
   .write().parquet(output);
}

 @Test
 public void saveAndLoadWithSchema() {
  Map<String, String> options = new HashMap<>();
  options.put("path", path.toString());
  df.write().format("json").mode(SaveMode.ErrorIfExists).options(options).save();

  List<StructField> fields = new ArrayList<>();
  fields.add(DataTypes.createStructField("b", DataTypes.StringType, true));
  StructType schema = DataTypes.createStructType(fields);
  Dataset<Row> loadedDF = spark.read().format("json").schema(schema).options(options).load();

  checkAnswer(loadedDF, spark.sql("SELECT b FROM jsonTable").collectAsList());
 }
}

 @Test
 public void saveAndLoadWithSchema() {
  Map<String, String> options = new HashMap<>();
  options.put("path", path.toString());
  df.write().format("json").mode(SaveMode.ErrorIfExists).options(options).save();

  List<StructField> fields = new ArrayList<>();
  fields.add(DataTypes.createStructField("b", DataTypes.StringType, true));
  StructType schema = DataTypes.createStructType(fields);
  Dataset<Row> loadedDF = spark.read().format("json").schema(schema).options(options).load();

  checkAnswer(loadedDF, spark.sql("SELECT b FROM jsonTable").collectAsList());
 }
}

 @Test
 public void saveAndLoadWithSchema() {
  Map<String, String> options = new HashMap<>();
  options.put("path", path.toString());
  df.write().format("json").mode(SaveMode.ErrorIfExists).options(options).save();

  List<StructField> fields = new ArrayList<>();
  fields.add(DataTypes.createStructField("b", DataTypes.StringType, true));
  StructType schema = DataTypes.createStructType(fields);
  Dataset<Row> loadedDF = spark.read().format("json").schema(schema).options(options).load();

  checkAnswer(loadedDF, spark.sql("SELECT b FROM jsonTable").collectAsList());
 }
}

@Test
public void testBeanWithArrayFieldDeserialization() {
 Encoder<Record> encoder = Encoders.bean(Record.class);
 Dataset<Record> dataset = spark
  .read()
  .format("json")
  .schema("id int, intervals array<struct<startTime: bigint, endTime: bigint>>")
  .load("src/test/resources/test-data/with-array-fields.json")
  .as(encoder);
 List<Record> records = dataset.collectAsList();
 Assert.assertEquals(records, RECORDS);
}

@Test
public void testBeanWithArrayFieldDeserialization() {
 Encoder<Record> encoder = Encoders.bean(Record.class);
 Dataset<Record> dataset = spark
  .read()
  .format("json")
  .schema("id int, intervals array<struct<startTime: bigint, endTime: bigint>>")
  .load("src/test/resources/test-data/with-array-fields.json")
  .as(encoder);
 List<Record> records = dataset.collectAsList();
 Assert.assertEquals(records, RECORDS);
}

Assert.assertEquals(expectedResult, actual1);
Dataset<Row> df2 = spark.read().schema(expectedSchema).json(jsonDS);
StructType actualSchema2 = df2.schema();
Assert.assertEquals(expectedSchema, actualSchema2);

Assert.assertEquals(expectedResult, actual1);
Dataset<Row> df2 = spark.read().schema(expectedSchema).json(jsonDS);
StructType actualSchema2 = df2.schema();
Assert.assertEquals(expectedSchema, actualSchema2);

@Test
public void testBeanWithArrayFieldDeserialization() {
 Encoder<Record> encoder = Encoders.bean(Record.class);
 Dataset<Record> dataset = spark
  .read()
  .format("json")
  .schema(createSchema())
  .load("src/test/resources/test-data/with-array-fields.json")
  .as(encoder);
 List<Record> records = dataset.collectAsList();
 Assert.assertEquals(records, RECORDS);
}

Popular methods of DataFrameReader

orc,
table

Popular in Java

Making http requests using okhttp
getSystemService (Context)
onCreateOptionsMenu (Activity)
runOnUiThread (Activity)
Pointer (com.sun.jna)
An abstraction for a native pointer data type. A Pointer instance represents, on the Java side, a na
InputStreamReader (java.io)
A class for turning a byte stream into a character stream. Data read from the source input stream is
ServerSocket (java.net)
This class represents a server-side socket that waits for incoming client connections. A ServerSocke
JarFile (java.util.jar)
JarFile is used to read jar entries and their associated data from jar files.
FileUtils (org.apache.commons.io)
General file manipulation utilities. Facilities are provided in the following areas: * writing to a
BoxLayout (javax.swing)
Top Sublime Text plugins

How to use schemamethodin org.apache.spark.sql.DataFrameReader

Best Java code snippets using org.apache.spark.sql.DataFrameReader.schema (Showing top 20 results out of 315)

How to use
schema
method
in
org.apache.spark.sql.DataFrameReader