org.apache.lucene.analysis.standard.StandardTokenizer.<init> java code examples

@Override
protected TokenStreamComponents createComponents(final String fieldName) {
 final StandardTokenizer src = new StandardTokenizer();
 src.setMaxTokenLength(maxTokenLength);
 TokenStream tok = new LowerCaseFilter(src);
 tok = new StopFilter(tok, stopwords);
 return new TokenStreamComponents(src, tok) {
  @Override
  protected void setReader(final Reader reader) {
   // So that if maxTokenLength was changed, the change takes
   // effect next time tokenStream is called:
   src.setMaxTokenLength(StandardAnalyzer.this.maxTokenLength);
   super.setReader(reader);
  }
 };
}

public TokenStream tokenStream(String fieldName,
    Reader reader) {
  TokenStream result = new StandardTokenizer(reader);

  @Override
  protected Tokenizer create(Version version) {
    return new StandardTokenizer();
  }
}

 public class CustomAnalyzer extends Analyzer {
 // other content omitted
 // ...
 public TokenStream tokenStream(String fieldName, Reader reader) {
  TokenStream result = new StandardTokenizer(reader);
  result = new StandardFilter(result);
  result = new LowerCaseFilter(result);
  // etc etc ...
  result = new StopFilter(result, yourSetOfStopWords);
  result = new ASCIIFoldingFilter(result);
  return result;
 }
 // ...
}

  @Override
  public Tokenizer create() {
    StandardTokenizer tokenizer = new StandardTokenizer();
    tokenizer.setMaxTokenLength(maxTokenLength);
    return tokenizer;
  }
}

 @Override
 public StandardTokenizer create(AttributeFactory factory) {
  StandardTokenizer tokenizer = new StandardTokenizer(factory);
  tokenizer.setMaxTokenLength(maxTokenLength);
  return tokenizer;
 }
}

/**
 * Creates
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * used to tokenize all the text in the provided {@link Reader}.
 * 
 * @return {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from a {@link StandardTokenizer} filtered with
 *         {@link GreekLowerCaseFilter},
 *         {@link StopFilter}, and {@link GreekStemFilter}
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new GreekLowerCaseFilter(source);
 result = new StopFilter(result, stopwords);
 result = new GreekStemFilter(result);
 return new TokenStreamComponents(source, result);
}

@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 // run the widthfilter first before bigramming, it sometimes combines characters.
 TokenStream result = new CJKWidthFilter(source);
 result = new LowerCaseFilter(result);
 result = new CJKBigramFilter(result);
 return new TokenStreamComponents(source, new StopFilter(result, stopwords));
}

/**
 * Creates a
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * which tokenizes all the text in the provided {@link Reader}.
 * 
 * @return A
 *         {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from an {@link StandardTokenizer} filtered with
 *         {@link LowerCaseFilter}, {@link StopFilter}
 *         , {@link SetKeywordMarkerFilter} if a stem exclusion set is
 *         provided and {@link LatvianStemFilter}.
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new LowerCaseFilter(source);
 result = new StopFilter(result, stopwords);
 if(!stemExclusionSet.isEmpty())
  result = new SetKeywordMarkerFilter(result, stemExclusionSet);
 result = new LatvianStemFilter(result);
 return new TokenStreamComponents(source, result);
}

/**
 * Creates
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * used to tokenize all the text in the provided {@link Reader}.
 * 
 * @return {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from a {@link StandardTokenizer} filtered with
 *         {@link LowerCaseFilter}, {@link StopFilter}
 *         , {@link SetKeywordMarkerFilter} if a stem exclusion set is
 *         provided, {@link GermanNormalizationFilter} and {@link GermanLightStemFilter}
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new LowerCaseFilter(source);
 result = new StopFilter(result, stopwords);
 result = new SetKeywordMarkerFilter(result, exclusionSet);
 result = new GermanNormalizationFilter(result);
 result = new GermanLightStemFilter(result);
 return new TokenStreamComponents(source, result);
}

/**
 * Creates
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * used to tokenize all the text in the provided {@link Reader}.
 * 
 * @return {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from an {@link StandardTokenizer} filtered with
 *         {@link LowerCaseFilter},
 *         {@link StopFilter}, {@link SetKeywordMarkerFilter}
 *         if a stem exclusion set is provided and {@link IndonesianStemFilter}.
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new LowerCaseFilter(source);
 result = new StopFilter(result, stopwords);
 if (!stemExclusionSet.isEmpty()) {
  result = new SetKeywordMarkerFilter(result, stemExclusionSet);
 }
 return new TokenStreamComponents(source, new IndonesianStemFilter(result));
}

/**
 * Creates
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * used to tokenize all the text in the provided {@link Reader}.
 * 
 * @return {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from a {@link StandardTokenizer} filtered with
 *         {@link LowerCaseFilter}, {@link StopFilter}
 *         , and {@link BrazilianStemFilter}.
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 Tokenizer source = new StandardTokenizer();
 TokenStream result = new LowerCaseFilter(source);
 result = new StopFilter(result, stopwords);
 if(excltable != null && !excltable.isEmpty())
  result = new SetKeywordMarkerFilter(result, excltable);
 return new TokenStreamComponents(source, new BrazilianStemFilter(result));
}

/**
 * Creates
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * used to tokenize all the text in the provided {@link Reader}.
 * 
 * @return {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from a {@link StandardTokenizer} filtered with
 *         {@link ElisionFilter},
 *         {@link LowerCaseFilter}, {@link StopFilter},
 *         {@link SetKeywordMarkerFilter} if a stem exclusion set is
 *         provided, and {@link FrenchLightStemFilter}
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new ElisionFilter(source, DEFAULT_ARTICLES);
 result = new LowerCaseFilter(result);
 result = new StopFilter(result, stopwords);
 if(!excltable.isEmpty())
  result = new SetKeywordMarkerFilter(result, excltable);
 result = new FrenchLightStemFilter(result);
 return new TokenStreamComponents(source, result);
}

/**
 * Creates
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * used to tokenize all the text in the provided {@link Reader}.
 * 
 * @return {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from a {@link StandardTokenizer} filtered with
 *         {@link LowerCaseFilter}, {@link StopFilter}
 *         , {@link SetKeywordMarkerFilter} if a stem exclusion set is
 *         provided, and {@link SnowballFilter}
 */
 @Override
 protected TokenStreamComponents createComponents(String fieldName) {
  final Tokenizer source = new StandardTokenizer();
  TokenStream result = new LowerCaseFilter(source);
  result = new StopFilter(result, stopwords);
  if (!stemExclusionSet.isEmpty()) 
   result = new SetKeywordMarkerFilter(result, stemExclusionSet);
  result = new SnowballFilter(result, new org.tartarus.snowball.ext.RussianStemmer());
  return new TokenStreamComponents(source, result);
 }

/**
 * Creates a
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * which tokenizes all the text in the provided {@link Reader}.
 * 
 * @return A
 *         {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from an {@link StandardTokenizer} filtered with
 *         {@link LowerCaseFilter}, {@link StopFilter}
 *         , {@link SetKeywordMarkerFilter} if a stem exclusion set is
 *         provided and {@link SnowballFilter}.
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new LowerCaseFilter(source);
 result = new StopFilter(result, stopwords);
 if(!stemExclusionSet.isEmpty())
  result = new SetKeywordMarkerFilter(result, stemExclusionSet);
 result = new SnowballFilter(result, new NorwegianStemmer());
 return new TokenStreamComponents(source, result);
}

/**
 * Creates a
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * which tokenizes all the text in the provided {@link Reader}.
 * 
 * @return A
 *         {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from an {@link StandardTokenizer} filtered with
 *         {@link LowerCaseFilter}, {@link StopFilter}
 *         , {@link SetKeywordMarkerFilter} if a stem exclusion set is
 *         provided and {@link SnowballFilter}.
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new LowerCaseFilter(source);
 result = new StopFilter(result, stopwords);
 if(!stemExclusionSet.isEmpty())
  result = new SetKeywordMarkerFilter(result, stemExclusionSet);
 result = new SnowballFilter(result, new RomanianStemmer());
 return new TokenStreamComponents(source, result);
}

/**
 * Creates a
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * which tokenizes all the text in the provided {@link Reader}.
 * 
 * @return A
 *         {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from an {@link StandardTokenizer} filtered with
 *         {@link LowerCaseFilter}, {@link StopFilter}
 *         , {@link SetKeywordMarkerFilter} if a stem exclusion set is
 *         provided and {@link SnowballFilter}.
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new LowerCaseFilter(source);
 result = new StopFilter(result, stopwords);
 if(!stemExclusionSet.isEmpty())
  result = new SetKeywordMarkerFilter(result, stemExclusionSet);
 result = new SnowballFilter(result, new HungarianStemmer());
 return new TokenStreamComponents(source, result);
}

/**
 * Creates a
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * which tokenizes all the text in the provided {@link Reader}.
 * 
 * @return A
 *         {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from an {@link StandardTokenizer} filtered with
 *         {@link LowerCaseFilter}, {@link StopFilter}
 *         , {@link SetKeywordMarkerFilter} if a stem exclusion set is
 *         provided and {@link SnowballFilter}.
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new LowerCaseFilter(source);
 result = new StopFilter(result, stopwords);
 if(!stemExclusionSet.isEmpty())
  result = new SetKeywordMarkerFilter(result, stemExclusionSet);
 result = new SnowballFilter(result, new ArmenianStemmer());
 return new TokenStreamComponents(source, result);
}

/**
 * Creates a
 * {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 * which tokenizes all the text in the provided {@link Reader}.
 * 
 * @return A
 *         {@link org.apache.lucene.analysis.Analyzer.TokenStreamComponents}
 *         built from an {@link StandardTokenizer} filtered with
 *         {@link ElisionFilter}, {@link LowerCaseFilter},
 *         {@link StopFilter}, {@link SetKeywordMarkerFilter} if a stem exclusion set is
 *         provided and {@link SnowballFilter}.
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new ElisionFilter(source, DEFAULT_ARTICLES);
 result = new LowerCaseFilter(result);
 result = new StopFilter(result, stopwords);
 if(!stemExclusionSet.isEmpty())
  result = new SetKeywordMarkerFilter(result, stemExclusionSet);
 result = new SnowballFilter(result, new CatalanStemmer());
 return new TokenStreamComponents(source, result);
}

/**
 * Returns a (possibly reused) {@link TokenStream} which tokenizes all the 
 * text in the provided {@link Reader}.
 *
 * @return A {@link TokenStream} built from a {@link StandardTokenizer}
 *   filtered with {@link LowerCaseFilter},
 *   {@link StopFilter}, {@link SetKeywordMarkerFilter} if a stem exclusion set is provided,
 *   {@link StemmerOverrideFilter}, and {@link SnowballFilter}
 */
@Override
protected TokenStreamComponents createComponents(String fieldName) {
 final Tokenizer source = new StandardTokenizer();
 TokenStream result = new LowerCaseFilter(source);
 result = new StopFilter(result, stoptable);
 if (!excltable.isEmpty())
  result = new SetKeywordMarkerFilter(result, excltable);
 if (stemdict != null)
  result = new StemmerOverrideFilter(result, stemdict);
 result = new SnowballFilter(result, new org.tartarus.snowball.ext.DutchStemmer());
 return new TokenStreamComponents(source, result);
}

Javadoc

Creates a new instance of the org.apache.lucene.analysis.standard.StandardTokenizer. Attaches the input to the newly created JFlex scanner. See http://issues.apache.org/jira/browse/LUCENE-1068

Popular methods of StandardTokenizer

setMaxTokenLength
Set the max allowed token length. No tokens longer than this are emitted.
reset
clearAttributes
correctOffset
init
setReader
close
getAttribute
incrementToken
setReplaceInvalidAcronym
generateParseException
jj_consume_token

Popular in Java

Parsing JSON documents to java classes using gson
getContentResolver (Context)
getResourceAsStream (ClassLoader)
onCreateOptionsMenu (Activity)
File (java.io)
An "abstract" representation of a file system entity identified by a pathname. The pathname may be a
FileNotFoundException (java.io)
Thrown when a file specified by a program cannot be found.
IOException (java.io)
Signals a general, I/O-related error. Error details may be specified when calling the constructor, a
URLConnection (java.net)
A connection to a URL for reading or writing. For HTTP connections, see HttpURLConnection for docume
Notification (javax.management)
Runner (org.openjdk.jmh.runner)
Top plugins for WebStorm

How to use org.apache.lucene.analysis.standard.StandardTokenizerconstructor

Best Java code snippets using org.apache.lucene.analysis.standard.StandardTokenizer.<init> (Showing top 20 results out of 468)

How to use
org.apache.lucene.analysis.standard.StandardTokenizer
constructor