nori/org.gnit.lucenekmp.analysis.ko

Package-level declarations

Types

DecompoundToken

class DecompoundToken(posTag: POS.Tag, surfaceForm: String, startOffset: Int, endOffset: Int, type: TokenType) : Token

A token that was generated from a compound.

DictionaryToken

class DictionaryToken(type: TokenType, morphAtts: KoMorphData, wordId: Int, surfaceForm: CharArray, offset: Int, length: Int, startOffset: Int, endOffset: Int) : Token

A token stored in a KoMorphData.

class KoreanAnalyzer(userDict: UserDictionary? = null, mode: KoreanTokenizer.DecompoundMode = KoreanTokenizer.DEFAULT_DECOMPOUND, stopTags: Set<POS.Tag> = KoreanPartOfSpeechStopFilter.DEFAULT_STOP_TAGS, outputUnknownUnigrams: Boolean = false) : Analyzer

Analyzer for Korean that uses morphological analysis.

KoreanNumberFilter

class KoreanNumberFilter(input: TokenStream) : TokenFilter

A TokenFilter that normalizes Korean numbers to regular Arabic decimal numbers in half-width characters.

KoreanNumberFilterFactory

class KoreanNumberFilterFactory : TokenFilterFactory

Factory for KoreanNumberFilter.

KoreanPartOfSpeechStopFilter

class KoreanPartOfSpeechStopFilter(input: TokenStream, stopTags: Set<POS.Tag> = DEFAULT_STOP_TAGS) : FilteringTokenFilter

Removes tokens that match a set of part-of-speech tags.

KoreanPartOfSpeechStopFilterFactory

class KoreanPartOfSpeechStopFilterFactory : TokenFilterFactory

Factory for KoreanPartOfSpeechStopFilter.

KoreanReadingFormFilter

class KoreanReadingFormFilter(input: TokenStream) : TokenFilter

Replaces term text with the ReadingAttribute which is the Hangul transcription of Hanja characters.

KoreanReadingFormFilterFactory

class KoreanReadingFormFilterFactory : TokenFilterFactory

Factory for KoreanReadingFormFilter.

KoreanTokenizer

class KoreanTokenizer : Tokenizer

Tokenizer for Korean that uses morphological analysis.

KoreanTokenizerFactory

class KoreanTokenizerFactory : TokenizerFactory, ResourceLoaderAware

Factory for KoreanTokenizer.

class POS

Part of speech classification for Korean based on Sejong corpus classification.

abstract class Token(surfaceForm: CharArray, offset: Int, length: Int, startOffset: Int, endOffset: Int, type: TokenType) : Token

Analyzed token with morphological data.