AI搜索导航
主要导航
  • 首页
  • 科技方案
  • AI智能工具
我的
  • 登录
  • 注册

PubMedQA
PubMedQA
生物医学研究问答数据集和模型得分排行榜
H2O EvalGPT
H2O EvalGPT
H2O.ai推出的基于Elo评级方法的大模型评估系统
LLMEval3
LLMEval3
由复旦大学NLP实验室推出的大模型评测基准
Chatbot Arena
Chatbot Arena
以众包方式进行匿名随机对战的LLM基准平台
MMBench
MMBench
全方位的多模态大模型能力评测体系
CMMLU
CMMLU
一个综合性的大模型中文评估基准
C-Eval
C-Eval
一个全面的中文基础模型评估套件
CLUE中文语言理解基准测评
CLUE中文语言理解基准测评
项目简介 中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行...
LYi 林哥的大模型野榜
LYi 林哥的大模型野榜
这两年各种号称能超越 OpenAI 的大模型层出不穷。为找出最好用的大模型,作者搭建了...
Open LLM Leaderboard
Open LLM Leaderboard
随着大量大型语言模型(LLMs)和聊天机器人每周都在发布,它们往往伴随着对性能的夸...
OpenCompass司南
OpenCompass司南
OpenCompass(司南)是由上海人工智能实验室发布的开源大模型评测体系,目前已成为业...
FlagEval (天秤)大模型评测
FlagEval (天秤)大模型评测
平台简介​ FlagEval (天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放...
superbench 大模型评测榜单
superbench 大模型评测榜单
SuperBench是什么 SuperBench 是由清华大学基础模型研究中心联合中关村实验室在 2...
Livebench LLM模型的基准测试平台
Livebench LLM模型的基准测试平台
 LiveBench 的介绍: 1. 核心目标与设计理念 LiveBench 的设计初衷是解...
CLiB中文大模型能力评测榜单
CLiB中文大模型能力评测榜单
目前已囊括195个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱...
Artificial Analysis AI基准测试平台
Artificial Analysis AI基准测试平台
Artificial Analysis平台是一家领先的独立AI基准测试和分析平台,上面分析的模型不...
lmarena.ai
lmarena.ai
lmarena.ai是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员...
SuperCLUE
SuperCLUE
SuperCLUE是什么 SuperCLUE是一个专注于中文大模型综合测评的权威平台,其产...
Catimind
Catimind
Catimind是什么Catimind(神经猫AI)是一款专为行业应用打造的AI生产力工具,旨...
LLaMA-Factory Online
LLaMA-Factory Online
大模型微调往往面临环境配置复杂、调参繁琐、成本高昂等挑战,令中小团队、个人开发者...
首页上一页下一页尾页1/2
关于我们 免责声明 用户协议
Copyright ©2025 AI搜索导航 All Rights Reserved
渝公网安备50019002504915号 渝ICP备2025061478号-2
首页 分类
工具
文章 我的