Skip to content

Latest commit

 

History

History
40 lines (39 loc) · 7.96 KB

news.md

File metadata and controls

40 lines (39 loc) · 7.96 KB

新闻

  • [2024.05.08] 我们支持了以下四个MoE模型的评测配置文件: Mixtral-8x22B-v0.1, Mixtral-8x22B-Instruct-v0.1, Qwen1.5-MoE-A2.7B, Qwen1.5-MoE-A2.7B-Chat 。欢迎试用!
  • [2024.04.30] 我们支持了计算模型在给定数据集上的压缩率(Bits per Character)的评测方法(官方文献)。欢迎试用llm-compression评测集! 🔥🔥🔥
  • [2024.04.26] 我们报告了典型LLM在常用基准测试上的表现,欢迎访问文档以获取更多信息!🔥🔥🔥.
  • [2024.04.26] 我们废弃了 OpenCompass 进行多模态大模型评测的功能,相关功能转移至 VLMEvalKit,推荐使用!🔥🔥🔥.
  • [2024.04.26] 我们支持了 ArenaHard评测 欢迎试用!🔥🔥🔥.
  • [2024.04.22] 我们支持了 LLaMA3LLaMA3-Instruct 的评测,欢迎试用!🔥🔥🔥.
  • [2024.02.29] 我们支持了MT-Bench、AlpacalEval和AlignBench,更多信息可以在这里找到。
  • [2024.01.30] 我们发布了OpenCompass 2.0。更多信息,请访问CompassKitCompassHubCompassRank
  • [2024.01.17] 我们支持了 InternLM2InternLM2-Chat 的相关评测,InternLM2 在这些测试中表现出非常强劲的性能,欢迎试用!.
  • [2024.01.17] 我们支持了多根针版本的大海捞针测试,更多信息见这里.
  • [2023.12.28] 我们支持了对使用LLaMA2-Accessory(一款强大的LLM开发工具箱)开发的所有模型的无缝评估!
  • [2023.12.22] 我们开源了T-Eval用于评测大语言模型工具调用能力。欢迎访问T-Eval的官方Leaderboard获取更多信息!
  • [2023.12.10] 我们开源了多模评测框架 VLMEvalKit,目前已支持 20+ 个多模态大模型与包括 MMBench 系列在内的 7 个多模态评测集.
  • [2023.12.10] 我们已经支持了Mistral AI的MoE模型 Mixtral-8x7B-32K。欢迎查阅MixtralKit以获取更多关于推理和评测的详细信息.
  • [2023.11.22] 我们已经支持了多个于API的模型,包括百度、字节跳动、华为、360。欢迎查阅模型部分以获取更多详细信息。
  • [2023.11.20] 感谢helloyongyang支持使用LightLLM作为后端进行评估。欢迎查阅使用LightLLM进行评估以获取更多详细信息。
  • [2023.11.13] 我们很高兴地宣布发布 OpenCompass v0.1.8 版本。此版本支持本地加载评估基准,从而无需连接互联网。请注意,随着此更新的发布,您需要重新下载所有评估数据集,以确保结果准确且最新。
  • [2023.11.06] 我们已经支持了多个基于 API 的模型,包括ChatGLM Pro@智谱清言、ABAB-Chat@MiniMax 和讯飞。欢迎查看 模型 部分以获取更多详细信息。
  • [2023.10.24] 我们发布了一个全新的评测集,BotChat,用于评估大语言模型的多轮对话能力,欢迎查看 BotChat 获取更多信息.
  • [2023.09.26] 我们在评测榜单上更新了Qwen, 这是目前表现最好的开源模型之一, 欢迎访问官方网站获取详情.
  • [2023.09.20] 我们在评测榜单上更新了InternLM-20B, 欢迎访问官方网站获取详情.
  • [2023.09.19] 我们在评测榜单上更新了WeMix-LLaMA2-70B/Phi-1.5-1.3B, 欢迎访问官方网站获取详情.
  • [2023.09.18] 我们发布了长文本评测指引.
  • [2023.09.08] 我们在评测榜单上更新了Baichuan-2/Tigerbot-2/Vicuna-v1.5, 欢迎访问官方网站获取详情。
  • [2023.09.06] 欢迎 Baichuan2 团队采用OpenCompass对模型进行系统评估。我们非常感谢社区在提升LLM评估的透明度和可复现性上所做的努力。
  • [2023.09.02] 我们加入了Qwen-VL的评测支持。
  • [2023.08.25] 欢迎 TigerBot 团队采用OpenCompass对模型进行系统评估。我们非常感谢社区在提升LLM评估的透明度和可复现性上所做的努力。
  • [2023.08.21] Lagent 正式发布,它是一个轻量级、开源的基于大语言模型的智能体(agent)框架。我们正与Lagent团队紧密合作,推进支持基于Lagent的大模型工具能力评测 !
  • [2023.08.18] OpenCompass现已支持多模态评测,支持10+多模态评测数据集,包括 MMBench, SEED-Bench, COCO-Caption, Flickr-30K, OCR-VQA, ScienceQA 等. 多模态评测榜单即将上线,敬请期待!
  • [2023.08.18] 数据集页面 现已在OpenCompass官网上线,欢迎更多社区评测数据集加入OpenCompass !
  • [2023.08.11] 官网榜单上新增了模型对比功能,希望该功能可以协助提供更多发现!
  • [2023.08.11] 新增了 LEval 评测支持.
  • [2023.08.10] OpenCompass 现已适配 LMDeploy. 请参考 评测指南Turbomind 加速后的模型进行评估.
  • [2023.08.10] Qwen-7BXVERSE-13B的评测结果已更新在 OpenCompass 大语言模型评测榜单!
  • [2023.08.09] 更新更多评测数据集(CMMLU, TydiQA, SQuAD2.0, DROP) ,请登录 大语言模型评测榜单 查看更多结果! 欢迎添加你的评测数据集到OpenCompass.
  • [2023.08.07] 新增了 MMBench 评测脚本 以支持用户自行获取 MMBench-dev 的测试结果.
  • [2023.08.05] GPT-4 的评测结果已更新在 OpenCompass 大语言模型评测榜单!
  • [2023.07.27] 新增了 CMMLU! 欢迎更多的数据集加入 OpenCompass.