ai - 一点感受:速度,实用性,最佳实践等
访问量: 47
1. 在64G, 无法使用CUDA的老显卡上(例如 GTX1650 ,4G) 也可以运行 ollama, 但是:
1.1 只能运行 7b 和 14b的
1.2 7b的速度可以接受,(2-3单词/s) 14b的模型,1.2 单词每秒。
2. CPU会持续攀升。 基本跑满。GPU则是15%。基本没用到。
3. 内存的使用,9G (同时开启7b, 14 b)
4. openwebui具备在线检索的能力,需要到google, bing等搜索引擎申请api key
5. 建议使用NSFW(not safe for work)的版本,这个是单机部署的最大意义所在
6. 线上跟线下结合是个有技术门槛并且非常有前景的方向。
7. 跟 其他的工具相结合,例如 langchain-ai