你想跑本地 LLM,但不知道哪款能装得下、跑得快、效果也好。
whichllm 一行命令自动检测你的硬件,从 HuggingFace 实时拉数据,按真实 benchmark 排名——不是参数大小。

82天 3233 star,39.4 star/day
PyPI 上发布,Homebrew 也支持。一行命令:
uvx whichllm@latest
它做什么
自动检测硬件:NVIDIA / AMD / Apple Silicon / CPU-only
实时拉 HuggingFace 数据:不维护静态名单
按 benchmark 排名:综合 LiveBench、Artificial Analysis、Aider、Vision、Chatbot Arena ELO、Open LLM Leaderboard
Recency-aware:2024 模型不会因为过时榜单碾压 2026 模型。每个评分下面都会显示数据快照日期。
Evidence-graded:5 级证据(direct / variant / base / line_interp / self_reported),按置信度打折。Uploader 自报的分数主动打折。小的 fork 借大模型分数会被拒。
Architecture-aware 速度估算:VRAM = weights + GQA KV cache + activation + overhead,MoE 模型速度按 active params 算。
看效果
$ whichllm --gpu "RTX 4090" #1 Qwen/Qwen3.6-27B 27.8B Q5_K_M score 92.8 27 t/s #2 Qwen/Qwen3-32B 32.0B Q4_K_M score 83.0 31 t/s #3 Qwen/Qwen3-30B-A3B 30.0B Q5_K_M score 82.7 102 t/s
注意:32B 模型能装下——但 27B 排第一,因为 benchmark 分数更高,而且更新一代。
买显卡前先模拟
whichllm --gpu "RTX 5090" whichllm --gpu "RTX 4090"
反向查
whichllm plan "llama 3 70b" # 给出需要什么 GPU
升级对比
whichllm upgrade "RTX 4090" "RTX 5090" "H100"
直接开聊
whichllm run "qwen 2.5 1.5b gguf" whichllm run # auto-pick best for your hardware
它会自动创建隔离环境、装依赖、下载模型、起 chat。
输出 JSON
whichllm --top 1 --json
可以 pipe 给 jq 写脚本。shell alias 一行:
alias bestllm='whichllm --top 1 --json | jq -r ".models[0].model_id"' # ollama run $(bestllm)
一行命令,按真实 benchmark 选本地 LLM。PyPI / Homebrew / 主流平台都支持。
GitHub:https://github.com/Andyyyy64/whichllm
seo优化_前端开发_渗透技术



![SEO & GEO 周报:Google算法更新完成|人工内容排名优势明显|5月上海搜索大会不容错过 [4月9日]-seo优化_前端开发_渗透技术](http://www.sins7.cn/wp-content/uploads/2026/05/wx_6899f833.jpg)


