PubMedQA是一个生物医学问题回答(QA)数据集,由匹兹堡大学、卡内基梅隆大学等机构提出。该数据集从PubMed摘要中收集而来,并利用这些摘要来回答问题。PubMedQA的特点是它需要对生物医学研究文本进行推理,特别是针对其定量内容。

PubMedQA包含三个不同的子集:

PubMedQA Labeled (PQA-L):这个子集包含1000个手动注释的是/否/可能的问题回答数据,这些问题和答案都是由专家标注的。

PubMedQA Artificial (PQA-A):这个子集包含211,300个基于PubMed文章自动生成的问题和答案。这些问题是根据论文标题生成的,并使用简单的启发式方法生成是/否答案标签。

PubMedQA Unlabeled (PQA-U):这个无标签的子集包含61,200个问题和对应的上下文,这些问题和上下文都是从PubMed文章中收集的。

PubMedQA的主题分布广泛,涵盖了多种研究领域,包括回顾性、前瞻性和队列研究,以及与不同年龄组和医疗保健相关的主题,如治疗结果、预后和疾病风险因素。

PubMedQA数据集在评估生物医学领域的大型语言模型时发挥了重要作用。例如,微软研究院发布的BioGPT,在回答生物医学文献中的问题方面表现优异。在PubMedQA上的评估显示,BioGPT的准确率达到了新的水平,这证明了该模型在生物医学问答任务中的有效性。
©️版权声明:若无特殊声明,本站所有文章版权均归AI库原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

类似网站