kuromoji/org.gnit.lucenekmp.analysis.ja

Package-level declarations

Types

JapaneseAnalyzer

class JapaneseAnalyzer : StopwordAnalyzerBase

Analyzer for Japanese that uses morphological analysis.

JapaneseBaseFormFilter

class JapaneseBaseFormFilter(input: TokenStream) : TokenFilter

Replaces term text with the BaseFormAttribute.

JapaneseBaseFormFilterFactory

class JapaneseBaseFormFilterFactory : TokenFilterFactory

Factory for {@link org.gnit.lucenekmp.analysis.ja.JapaneseBaseFormFilter}.

JapaneseCompletionAnalyzer

class JapaneseCompletionAnalyzer : Analyzer

Analyzer for Japanese completion suggester.

JapaneseCompletionFilter

class JapaneseCompletionFilter(input: TokenStream, mode: JapaneseCompletionFilter.Mode = DEFAULT_MODE) : TokenFilter

A TokenFilter that adds Japanese romanized tokens to the term attribute. Also keeps original tokens (surface forms). Main usage is query auto-completion.

JapaneseCompletionFilterFactory

class JapaneseCompletionFilterFactory : TokenFilterFactory

Factory for {@link JapaneseCompletionFilter}.

JapaneseHiraganaUppercaseFilter

class JapaneseHiraganaUppercaseFilter(input: TokenStream) : TokenFilter

A TokenFilter that normalizes small letters (捨て仮名) in hiragana into normal letters. For instance, "ちょっとまって" will be translated to "ちよつとまつて".

JapaneseHiraganaUppercaseFilterFactory

class JapaneseHiraganaUppercaseFilterFactory : TokenFilterFactory

Factory for JapaneseHiraganaUppercaseFilter.

JapaneseIterationMarkCharFilter

class JapaneseIterationMarkCharFilter : CharFilter

Normalizes Japanese horizontal iteration marks (odoriji) to their expanded form.

JapaneseIterationMarkCharFilterFactory

class JapaneseIterationMarkCharFilterFactory : CharFilterFactory

Factory for JapaneseIterationMarkCharFilter.

JapaneseKatakanaStemFilter

class JapaneseKatakanaStemFilter : TokenFilter

A TokenFilter that normalizes common katakana spelling variations ending in a long sound character by removing this character (U+30FC).

JapaneseKatakanaStemFilterFactory

class JapaneseKatakanaStemFilterFactory : TokenFilterFactory

Factory for JapaneseKatakanaStemFilter.

JapaneseKatakanaUppercaseFilter

class JapaneseKatakanaUppercaseFilter(input: TokenStream) : TokenFilter

A TokenFilter that normalizes small letters (捨て仮名) in katakana into normal letters. For instance, "ストップウォッチ" will be translated to "ストツプウオツチ".

JapaneseKatakanaUppercaseFilterFactory

class JapaneseKatakanaUppercaseFilterFactory : TokenFilterFactory

Factory for JapaneseKatakanaUppercaseFilter.

JapaneseNumberFilter

class JapaneseNumberFilter(input: TokenStream) : TokenFilter

A TokenFilter that normalizes Japanese numbers (kansūji) to regular Arabic decimal numbers.

JapaneseNumberFilterFactory

class JapaneseNumberFilterFactory : TokenFilterFactory

Factory for JapaneseNumberFilter.

JapanesePartOfSpeechStopFilter

class JapanesePartOfSpeechStopFilter(input: TokenStream, stopTags: Set<String>) : FilteringTokenFilter

Removes tokens that match a set of part-of-speech tags.

JapanesePartOfSpeechStopFilterFactory

class JapanesePartOfSpeechStopFilterFactory : TokenFilterFactory, ResourceLoaderAware

Factory for {@link org.gnit.lucenekmp.analysis.ja.JapanesePartOfSpeechStopFilter}.

JapaneseReadingFormFilter

class JapaneseReadingFormFilter(input: TokenStream, useRomaji: Boolean = false) : TokenFilter

A TokenFilter that replaces the term attribute with the reading of a token in either katakana or romaji form. The default reading form is katakana.

JapaneseReadingFormFilterFactory

class JapaneseReadingFormFilterFactory : TokenFilterFactory

Factory for {@link org.gnit.lucenekmp.analysis.ja.JapaneseReadingFormFilter}.

JapaneseTokenizer

class JapaneseTokenizer : Tokenizer

Tokenizer for Japanese that uses morphological analysis.

JapaneseTokenizerFactory

class JapaneseTokenizerFactory : TokenizerFactory, ResourceLoaderAware

Factory for {@link org.gnit.lucenekmp.analysis.ja.JapaneseTokenizer}.

Token

class Token(surfaceForm: CharArray, offset: Int, length: Int, startOffset: Int, endOffset: Int, morphId: Int, type: TokenType, morphData: JaMorphData) : Token

Analyzed token with morphological data from its dictionary.