令牌计数矢量化器(文本处理) · PHP-ML中文文档

### 令牌计数矢量化器 > 将文本样本集合转换为令牌计数向量。 ### 构造函数参数 `$tokenizer`（Tokenizer） - tokenizer对象（见下文） `$minDF`（float） - 忽略采样频率严格低于给定阈值的标记。该值在文献中也称为截止值。（默认为0） ``` use Phpml\FeatureExtraction\TokenCountVectorizer; use Phpml\Tokenization\WhitespaceTokenizer; $vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer()); ``` ***** ### 转换要转换文本样本集合，请使用`transform`方法。例： ``` $samples = [ 'Lorem ipsum dolor sit amet dolor', 'Mauris placerat ipsum dolor', 'Mauris diam eros fringilla diam', ]; $vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer()); // Build the dictionary. $vectorizer->fit($samples); // Transform the provided text samples into a vectorized list. $vectorizer->transform($samples); // return $samples = [ // [0 => 1, 1 => 1, 2 => 2, 3 => 1, 4 => 1], // [5 => 1, 6 => 1, 1 => 1, 2 => 1], // [5 => 1, 7 => 2, 8 => 1, 9 => 1], //]; ``` ***** ### 词汇您可以使用`getVocabulary()`方法提取词汇表。例： ``` $vectorizer->getVocabulary(); // return $vocabulary = ['Lorem', 'ipsum', 'dolor', 'sit', 'amet', 'Mauris', 'placerat', 'diam', 'eros', 'fringilla']; ``` ***** ### 分词 `WhitespaceTokenizer` - 按空格选择标记。 `WordTokenizer` - 选择2个或更多字母数字字符的标记（标点符号完全被忽略，并始终被视为标记分隔符）。