How to use
Tokenizer
in
org.apache.spark.ml.feature

Best Java code snippets using org.apache.spark.ml.feature.Tokenizer (Showing top 7 results out of 315)

df.groupBy("label").count().show();
org.apache.spark.ml.feature.Tokenizer tokenizer = new Tokenizer()
    .setInputCol("context").setOutputCol("words");
HashingTF hashingTF = new HashingTF().setNumFeatures(numFeatures)
    .setInputCol(tokenizer.getOutputCol()).setOutputCol("features");
LogisticRegression lr = new LogisticRegression().setMaxIter(100)
    .setRegParam(0.01);

  @Override
  public List<Feature> encodeFeatures(SparkMLEncoder encoder){
    Tokenizer transformer = getTransformer();

    Feature feature = encoder.getOnlyFeature(transformer.getInputCol());

    Apply apply = PMMLUtil.createApply("lowercase", feature.ref());

    DerivedField derivedField = encoder.createDerivedField(FeatureUtil.createName("lowercase", feature), OpType.CATEGORICAL, DataType.STRING, apply);

    return Collections.singletonList(new DocumentFeature(encoder, derivedField, "\\s+"));
  }
}

/**
 * Creates a processing pipeline.
 * @return a pipeline
 */
private Pipeline createPipeline() {
  Tokenizer tokenizer = new Tokenizer()
    .setInputCol("featureStrings")
    .setOutputCol("tokens");
  CountVectorizer countVectorizer = new CountVectorizer()
    .setInputCol("tokens")
    .setOutputCol("features")
    .setMinDF((Double)params.getOrDefault(params.getMinFF()))
    .setVocabSize((Integer)params.getOrDefault(params.getNumFeatures()));  
  StringIndexer tagIndexer = new StringIndexer()
    .setInputCol("tag")
    .setOutputCol("label");
  
  Pipeline pipeline = new Pipeline().setStages(new PipelineStage[]{tokenizer, countVectorizer, tagIndexer});
  return pipeline;
}

Tokenizer tokenizer = new Tokenizer()
 .setInputCol("sentence")
 .setOutputCol("words");
Dataset<Row> wordsData = tokenizer.transform(sentenceData);
int numFeatures = 20;
HashingTF hashingTF = new HashingTF()

Tokenizer tokenizer = new Tokenizer()
 .setInputCol("sentence")
 .setOutputCol("words");
Dataset<Row> wordsData = tokenizer.transform(sentenceData);
int numFeatures = 20;
HashingTF hashingTF = new HashingTF()

/**
 * Creates a processing pipeline.
 * @return a pipeline
 */
protected Pipeline createPipeline() {
  Tokenizer tokenizer = new Tokenizer()
    .setInputCol("text")
    .setOutputCol("tokens");
  CountVectorizer countVectorizer = new CountVectorizer()
    .setInputCol("tokens")
    .setOutputCol("features")
    .setMinDF((Double)params.getOrDefault(params.getMinFF()))
    .setVocabSize((Integer)params.getOrDefault(params.getNumFeatures()));  
  StringIndexer transitionIndexer = new StringIndexer()
    .setInputCol("transition")
    .setOutputCol("label");
  
  Pipeline pipeline = new Pipeline().setStages(new PipelineStage[]{tokenizer, countVectorizer, transitionIndexer});
  return pipeline;
}

Tokenizer tokenizer = new Tokenizer()
 .setInputCol("sentence")
 .setOutputCol("words");
Dataset<Row> wordsData = tokenizer.transform(sentenceData);
int numFeatures = 20;
HashingTF hashingTF = new HashingTF()

Most used methods

Popular in Java

Start an intent from android
getResourceAsStream (ClassLoader)
runOnUiThread (Activity)
setRequestProperty (URLConnection)
Deque (java.util)
A linear collection that supports element insertion and removal at both ends. The name deque is shor
Timer (java.util)
Timers schedule one-shot or recurring TimerTask for execution. Prefer java.util.concurrent.Scheduled
Semaphore (java.util.concurrent)
A counting semaphore. Conceptually, a semaphore maintains a set of permits. Each #acquire blocks if
Stream (java.util.stream)
A sequence of elements supporting sequential and parallel aggregate operations. The following exampl
Reference (javax.naming)
Filter (javax.servlet)
A filter is an object that performs filtering tasks on either the request to a resource (a servlet o
Github Copilot alternatives

How to useTokenizer in org.apache.spark.ml.feature

Best Java code snippets using org.apache.spark.ml.feature.Tokenizer (Showing top 7 results out of 315)

How to use
Tokenizer
in
org.apache.spark.ml.feature