💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
# Minhash Token Filter(Minhash过滤器) 原文链接 : [https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-minhash-tokenfilter.html](https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-minhash-tokenfilter.html) 译文链接 : [http://www.apache.wiki/pages/viewpage.action?pageId=10028836](http://www.apache.wiki/pages/viewpage.action?pageId=10028836) 贡献者 : [李亚运](/display/~liyayun),[ApacheCN](/display/~apachecn),[Apache中文网](/display/~apachechina) ## 简述 min_hash 过滤器将token流中每个token一一哈希,并将生成的哈希值分成buckets,以保持每bucket最低值的散列值。 然后将这些哈希值作为token(词元)返回。 ## 参数 | 设置 | 描述 | | --- | --- | | `hash_count` | 散列token流的散列数。 默认为`1` 。 | | `bucket_count` | 将minhash分成的bucket数。 默认为`512` 。 | | `hash_set_size` | 每bucket要保留的最小数量。 默认为`1` 。 | | `with_rotation` | 是否将空bucket中的第一个非空bucket的值填充到其循环右边。 仅当hash_set_size等于1时才生效。 如果bucket_count大于1,则默认为`true` ,否则为`false` 。 |