
PubMedQA,这是一个从PubMed摘要中收集的新型生物医学问题回答(QA)数据集。
PubMedQA的任务是使用相应的摘要来回答研究问题,答案可以是是/否/可能(例如:术前使用他汀类药物是否能减少冠状动脉搭桥术后的心房颤动?)。PubMedQA包含1k条专家注释、61.2k条未标记和211.3k条人工生成的QA实例。
每个PubMedQA实例包括:
(1)一个问题,可以是现有的研究文章标题或者从中派生的问题,
(2)一个上下文,即相应摘要但不包括结论部分,
(3)一个长答案,即摘要的结论部分,据推测,应该可以回答研究问题,
(4)一个是/否/可能答案,总结了结论。
PubMedQA是第一个需要对生物医学研究文本进行推理,特别是对其定量内容进行推理以回答问题的QA数据集。我们最佳的模型是使用BioBERT进行多阶段微调,并使用长答案词袋统计作为额外监督,其准确率达到68.1%,而单个人的表现为78.0%的准确率,多数基线为55.2%的准确率,仍有很大的改进空间。PubMedQA公开可用于此https URL。
数据统计
数据评估
关于PubMedQA特别声明
本站AI工具集提供的PubMedQA都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AI工具集实际控制,在2025-04-19 11:21收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具集不承担任何责任。
相关导航

一个专门为评估语言模型在中文语境下的知识和推理能力而设计的综合性评估基准

MMBench
由OpenCompass社区开发的多模态基准测试工具

FlagEval
北京智源人工智能研究院推出的大模型评测体系及开放平台

MMLU
一个用于评估语言模型在多任务、多领域知识推理和理解能力的基准测试工具

SuperCLUE
中文通用大模型综合性测评基准

C-Eval
一个由上海交通大学、清华大学和爱丁堡大学联合推出的中文基础模型评估套件

Helm Lite
斯坦福大学CRFM团队开发的一个轻量级语言模型评估基准

Chatbot Arena
是一个基于人类偏好评估AI聊天机器人性能的开放平台
暂无评论...