主要导航
首页
科技方案
AI智能工具
我的
登录
注册
PubMedQA
生物医学研究问答数据集和模型得分排行榜
H2O EvalGPT
H2O.ai推出的基于Elo评级方法的大模型评估系统
LLMEval3
由复旦大学NLP实验室推出的大模型评测基准
Chatbot Arena
以众包方式进行匿名随机对战的LLM基准平台
MMBench
全方位的多模态大模型能力评测体系
CMMLU
一个综合性的大模型中文评估基准
C-Eval
一个全面的中文基础模型评估套件
CLUE中文语言理解基准测评
项目简介 中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行...
LYi 林哥的大模型野榜
这两年各种号称能超越 OpenAI 的大模型层出不穷。为找出最好用的大模型,作者搭建了...
Open LLM Leaderboard
随着大量大型语言模型(LLMs)和聊天机器人每周都在发布,它们往往伴随着对性能的夸...
OpenCompass司南
OpenCompass(司南)是由上海人工智能实验室发布的开源大模型评测体系,目前已成为业...
FlagEval (天秤)大模型评测
平台简介 FlagEval (天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放...
superbench 大模型评测榜单
SuperBench是什么 SuperBench 是由清华大学基础模型研究中心联合中关村实验室在 2...
Livebench LLM模型的基准测试平台
LiveBench 的介绍: 1. 核心目标与设计理念 LiveBench 的设计初衷是解...
CLiB中文大模型能力评测榜单
目前已囊括195个大模型,覆盖chatgpt、gpt-4o、o3-mini、谷歌gemini、Claude3.5、智谱...
Artificial Analysis AI基准测试平台
Artificial Analysis平台是一家领先的独立AI基准测试和分析平台,上面分析的模型不...
lmarena.ai
lmarena.ai是一个由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员...
SuperCLUE
SuperCLUE是什么 SuperCLUE是一个专注于中文大模型综合测评的权威平台,其产...
Catimind
Catimind是什么Catimind(神经猫AI)是一款专为行业应用打造的AI生产力工具,旨...
LLaMA-Factory Online
大模型微调往往面临环境配置复杂、调参繁琐、成本高昂等挑战,令中小团队、个人开发者...
首页
上一页
下一页
尾页
1/2
首页
分类
工具
文章
我的