当前位置: 首页 > news >正文

重庆网站推广平台腾讯云网站建设教学视频教程

重庆网站推广平台,腾讯云网站建设教学视频教程,大尺度做爰网站,大型门户网站建设服务年前DeepSeek不温不火#xff0c;问题的响应极。一回车#xff0c;就看模型如口吐莲花般#xff0c;先是输出思维过程#xff0c;虽然中间绕来绕去#xff0c;但是输出回答时还是准确而简洁的。比如#xff0c;用它来读当时出来的几篇文章#xff0c;确实大大提升了效率…年前DeepSeek不温不火问题的响应极。一回车就看模型如口吐莲花般先是输出思维过程虽然中间绕来绕去但是输出回答时还是准确而简洁的。比如用它来读当时出来的几篇文章确实大大提升了效率。虽然搞科研这么多年读文章还是比较快但是遇到翻译长难句、生僻的概念读起来还是磕磕绊绊得做很足的心理建设才能克服困难读完。现在用DeepSeek等它输出的时候喝点水刷刷新闻发发呆极好。 过年前后的一波发布宣传发酵R1彻底火出了圈。1月25日后再用的时候就开始出现服务器无响应了。俗话说“由简入奢易由奢入简难”。 短时间DeepSeek无法增加服务器提供服务的情况下除了反复提交外还有什么办法呢年后随着DeepSeek的热度持续增加过年期间憋大招的工作都出来了比如ktransformer、unsloth等相继支持DeepSeek满血版知乎、三大运营商接入或提供DeepSeek访问。于是准备部署一个本地版本。 本地部署的话可以用llama.cpp、vllm、ollama等也可以使用LM studio这样的图像化界面工具。甚至可以用vllm、ollama为后端写个restful服务再包装个前端页面。对比后还是用了最傻瓜化的LM studio。 模型参数方面一开始看得眼花缭乱的后面还是老实的根据显卡显存大小选择了7B以下的模型还得是量化后的。 最开始就是问了个稍带歧义的问题“there are a amount of applesa monkey steals a half of them a day. On the ninth daythere is one apple lefthow many apples are there”。1.5B模型根据字面意思给出的答案是512。看思维过程把另外一些可能排除了其中最可能的一个以字面意思偷不了0.5个苹果给否定了。7B的Q8给出的结果一样。后面找了双卡机器跑了32B的Q8速度一下子慢了很多结果还是512。 接下来有意思的事情发生了。当我提示题目是否可以按照剩下的一个苹果是偷之前和偷之后理解是不是答案会不一样。1.5B是思维过程错误给否定了甚至得出了128个。提示了半天给出了256个。7B和32B还是比较好的理解了提示认同了题目确实存在不准确性分情况讨论合适。但是32B在接受这个理解上表现得比较固执可能是某种“自信”或者“对训练数据的过拟合形成了执念”。 在代码生成方面总结文献阅读方面1.5B的思维过程明显简单回答也比较简单。在速度方面1.5B回复的速度真快32B不优化的话慢的有点儿难以接受。 基于此1.5B基本上应付简单问答是可以的而且速度快剩下的就是各种量化版本了。为了更好的、更加客观的观察量化的影响准备用这些模型跑跑AIME24、MATH500等标准测试。 终于找回了题目没想到遇到了大坑。首先Huggingface在复现R1上是做的比较扎实的Open-R1给出了比较详实的过程和代码以及结果。因此选用了这个代码库来跑evaluation。 按照流程首先是搭个虚拟环境不想用uv就还是用conda。结果conda只有3.10没用3.11。最后查了查得加点参数。 conda create -n openr1 python3.11 -c conda-forge 然后是装vllm下载了一堆包编译了好久。 然后参考写了个AIME的测试脚本结果爆了个CUDA版本问题。没办法本来是不想动本地环境又不想配docker。装了CUDA12.4没装驱动再跑测试脚本还是报了几个包没用的问题然后继续setup。 setup这步编译到lighteval会自动降级到torch2.4.1。中断的话又和torch2.5.1不兼容编译失败。还好是有解决方案。但是下载的setup里面就是这个commit_tag奇怪。后面又编译过去了奇怪。接下来到了重头戏。fast_attn编译了半个小时没出来我想着吃了饭怎么也好了。结果到睡觉前都没出来~才在网上翻了翻原来我不是第一个等编译等到了睡觉的。 第二天一早满心欢喜的发现编译完了一堆包。再跑测试脚本import vllm就报错一个错误vllm/_C.abi3.so: undefined symbol: cuTensorMapEncodeTiled。这大概了是残留的驱动的锅了。看来本地跑是彻底没戏了。没想到编译一个vllm跑evaluation这多么坑。
http://www.eeditor.cn/news/123957/

相关文章:

  • 山东聊城做网站金融公司网站方案
  • 学院网站建设管理兰州市城乡建设及网站
  • 电商货源网站大全静态淘宝网站制作模板
  • 宁国网站设计公司营口手机网站建设
  • 网站开发需要网站建设管理调研提纲
  • 网站数据分析南山商城网站建设多少钱
  • 免费网站根目录网站营销策划
  • 做厨具公司网站南昌seo营销
  • 如何做收费影视资源网站软件定制开发公司排名
  • 郑州网站app开发全网营销系统是不是传销
  • 陕西省高速建设集团网站甘肃兰州怎么样
  • 学校校园网站建设安卓做网站教程
  • 品牌网站建设收费情况淘宝电脑版网页
  • 彩票网站开发极云软文编辑
  • 响应式网站建设的应用场景为网站优势
  • python做网站好吗wordpress电台
  • 重庆游戏网站开发公司吸引人的广告图片
  • 用vuejs做的网站电影网站做流量吗
  • 网站建站上市公司建设网站中心
  • 如何自己做网站 开直播建设银行网站登录密码
  • 沧州市做网站wordpress 上一页下一页
  • 福建漳州网站建设哪家便宜wordpress 静态化插件
  • 永久免费的网站地址嘉兴seo公司网站
  • 建站大师阙梅娇简介百度广告位
  • 做网站怎么找客户联系方式怎么做一个购物平台
  • 网站 东莞长安网站未备案做经营被罚款
  • 泛站群地方网站成本
  • 中端网站建设优秀网页案例分析
  • 舟山建设银行纪念币预约网站网站排名优化各公司的
  • 微信开发商是谁项链seo关键词