common/org.gnit.lucenekmp.analysis.core

Package-level declarations

Types

DecimalDigitFilter

class DecimalDigitFilter(input: TokenStream) : TokenFilter

Folds all Unicode digits in :General_Category=Decimal_Number: to Basic Latin digits (0-9).

DecimalDigitFilterFactory

class DecimalDigitFilterFactory : TokenFilterFactory

Factory for DecimalDigitFilter.

FlattenGraphFilter

class FlattenGraphFilter(input: TokenStream) : TokenFilter

Converts an incoming graph token stream, such as one from SynonymGraphFilter, into a flat form so that all nodes form a single linear chain with no side paths.

FlattenGraphFilterFactory

class FlattenGraphFilterFactory : TokenFilterFactory

Factory for FlattenGraphFilter.

KeywordAnalyzer

class KeywordAnalyzer : Analyzer

"Tokenizes" the entire stream as a single token. This is useful for data like zip codes, ids, and some product names.

KeywordTokenizer

class KeywordTokenizer : Tokenizer

Emits the entire input as a single token.

KeywordTokenizerFactory

class KeywordTokenizerFactory : TokenizerFactory

Factory for KeywordTokenizer.

LetterTokenizer

class LetterTokenizer : CharTokenizer

A LetterTokenizer is a tokenizer that divides text at non-letters. That's to say, it defines tokens as maximal strings of adjacent letters, as defined by Character.isLetter() predicate.

LetterTokenizerFactory

class LetterTokenizerFactory : TokenizerFactory

Factory for LetterTokenizer.

LowerCaseFilter

class LowerCaseFilter(in: TokenStream) : LowerCaseFilter

Normalizes token text to lower case.

LowerCaseFilterFactory

class LowerCaseFilterFactory : TokenFilterFactory

Factory for LowerCaseFilter.

SimpleAnalyzer

class SimpleAnalyzer : Analyzer

An Analyzer that filters LetterTokenizer with LowerCaseFilter

StopAnalyzer

class StopAnalyzer : StopwordAnalyzerBase

Filters LetterTokenizer with CoreLowerCaseFilter and CoreStopFilter.

StopFilter

class StopFilter(in: TokenStream, stopWords: CharArraySet) : StopFilter

Removes stop words from a token stream.

StopFilterFactory

class StopFilterFactory : AbstractWordsFileFilterFactory

Factory for StopFilter.

TypeTokenFilter

class TypeTokenFilter : FilteringTokenFilter

Removes tokens whose types appear in a set of blocked types from a token stream.

TypeTokenFilterFactory

class TypeTokenFilterFactory : TokenFilterFactory, ResourceLoaderAware

Factory class for TypeTokenFilter.

UnicodeWhitespaceAnalyzer

class UnicodeWhitespaceAnalyzer : Analyzer

An Analyzer that uses UnicodeWhitespaceTokenizer.

UnicodeWhitespaceTokenizer

class UnicodeWhitespaceTokenizer : CharTokenizer

A UnicodeWhitespaceTokenizer is a tokenizer that divides text at whitespace. Adjacent sequences of non-Whitespace characters form tokens (according to Unicode's WHITESPACE property).

UpperCaseFilter

class UpperCaseFilter(in: TokenStream) : TokenFilter

Normalizes token text to UPPER CASE.

UpperCaseFilterFactory

class UpperCaseFilterFactory : TokenFilterFactory

Factory for UpperCaseFilter.

WhitespaceAnalyzer

class WhitespaceAnalyzer(maxTokenLength: Int = WhitespaceTokenizer.DEFAULT_MAX_WORD_LEN) : Analyzer

An Analyzer that uses WhitespaceTokenizer.

WhitespaceTokenizer

class WhitespaceTokenizer : CharTokenizer

A tokenizer that divides text at whitespace characters as defined by . Note: That definition explicitly excludes the non-breaking space. Adjacent sequences of non-Whitespace characters form tokens.

WhitespaceTokenizerFactory

class WhitespaceTokenizerFactory : TokenizerFactory

Factory for WhitespaceTokenizer.