feat: add special tokens in spacy_tokenizer (!720) · Merge requests · DeepPavlov / DeepPavlov

Closed Andrei Glinskii requested to merge fix/spacy-tokenizer-stopwords into dev Feb 20, 2019

Created by: vikmary

Do not split stopwords into subtokens in StramSpacyTokenizer.

Example of use:

from deeppavlov.models.tokenizers.spacy_tokenizer import StreamSpacyTokenizer

tok = StreamSpacyTokenizer(alphas_only=False, stopwords=['__PERSON__'])

tok(['__PERSON__ пошел гулять'])
> [['__person__', 'пошел', 'гулять']]