ai - 一点感受：速度，实用性，最佳实践等

2025-02-04 07:09

访问量: 47

1. 在64G，无法使用CUDA的老显卡上（例如 GTX1650 ,4G) 也可以运行 ollama, 但是：

1.1 只能运行 7b 和 14b的

1.2 7b的速度可以接受，（2-3单词/s) 14b的模型，1.2 单词每秒。

2. CPU会持续攀升。基本跑满。GPU则是15%。基本没用到。

3. 内存的使用，9G （同时开启7b, 14 b)

4. openwebui具备在线检索的能力，需要到google, bing等搜索引擎申请api key

5. 建议使用NSFW(not safe for work)的版本，这个是单机部署的最大意义所在

6. 线上跟线下结合是个有技术门槛并且非常有前景的方向。

7. 跟其他的工具相结合，例如 langchain-ai

订阅/RSS Feed