Open Dataset Pulse

1h ago

De-Identified KU Leuven Dataset Unlocks Privacy-Safe Learning Analytics Research

New open dataset boosts AI-driven learning optimization:

Clickstream data from two first-year KU Leuven courses over three years, ideal for LA...

Open data, private learners: a de-identified student activity and performance dataset for learning analytics | Scientific Data

1h ago·

nature.com

1d ago

MEETI: Open Multimodal ECG Dataset Enhancing Clinical AI Interpretability

MEETI bridges multimodal AI gaps for ECGs with raw signals, high-res images, beat-level features, and LLM interpretations from ~800k MIMIC-IV-ECG...

MEETI: A Multimodal ECG Dataset from MIMIC-IV-ECG with Signals, Images, Features and Interpretations | Scientific Data

1d ago·

nature.com

1d ago

New Multi-Perspective Traffic Video Dataset Boosts Occlusion-Resistant Modeling

Synchronized multi-angle videos from vehicle, roadside, and drone cameras enable comprehensive traffic analysis despite occlusions in complex...

Dataset for multi-perspective traffic video analysis | Scientific Data

1d ago·

nature.com

1d ago

Open Dataset Pulse · Feb 26 Daily Digest

New Scientific Datasets

🔥 SciCUEval: SciCUEval is a comprehensive benchmark dataset for evaluating LLMs on scientific context understanding...

1d ago

Workshop: Neural Embeddings for Efficient EO Data Handling

Key takeaways from this practical workshop on embedding workflows for Earth Observation (EO) tasks:

Neural embeddings from modern Foundation Models...

1d ago

SciCUEval: New Open Benchmark for LLM Scientific Context Understanding

SciCUEval bridges gaps in LLM benchmarking by evaluating scientific context across diverse domains.

Key highlights:

10 sub-datasets in biology,...

SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models | Scientific Data

nature.com

SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models | Scientific Data

1d ago

Humanity’s Last Exam: Ultra-Hard Benchmark by 1,000 Researchers Exposes AI Limits

New super-benchmark released: Nearly 1,000 experts crafted Humanity’s Last Exam (HLE), a 2,500-question test across specialized fields like ancient...

“Humanity’s Last Exam”: The Super-Benchmark AI Is Currently Failing

neurosciencenews.com

“Humanity’s Last Exam”: The Super-Benchmark AI Is Currently Failing

1d ago

GenomeOcean: JGI's Open AI Model Scales Genomic Data Interpretation

GenomeOcean pilot released: DOE JGI's 4-billion-parameter foundation model, trained on NERSC supercomputing with 220 TB public metagenomic data from...

GenomeOcean: How DOE’s JGI Is Using AI to Read and Write DNA at Scale

meritalk.com

GenomeOcean: How DOE’s JGI Is Using AI to Read and Write DNA at Scale

1d ago

Synthia: Physics-Based Synthetic Data Tackles Labeling Scarcity in 2D Materials Microscopy

Best practices for synthetic data in materials science imaging:

Physics simulation via Synthia: Models thin-film interference for realistic flake...

Data Generation Aids Material Characterisation from Images

quantumzeitgeist.com

Data Generation Aids Material Characterisation from Images

1d ago

Align Foundation & DeepMind Launch AMR AI Data Roadmap

Key steps in the open data push for AI tackling antimicrobial resistance:

Partnership announced to convene experts for prioritized datasets and...

Align Foundation Partners with Google DeepMind on AI Data Roadmap for Antimicrobial Resistance

hpcwire.com

Align Foundation Partners with Google DeepMind on AI Data Roadmap for Antimicrobial Resistance

1d ago

2d ago

Insilico Medicine Expands ScienceAIBench to Survival Prediction

Insilico Medicine advances its ScienceAIBench series by benchmarking frontier AI models on survival prediction tasks in medicine—key for medical AI research leaderboards.

Insilico Medicine Benchmarks Frontier AI Models on Survival Prediction Tasks

2d ago·

tipranks.com

2d ago

Conv-FinRe: Novel Open Benchmark for Utility-Grounded Financial AI

Conv-FinRe released as a conversational and longitudinal benchmark for stock recommendations, evaluating LLMs beyond mere behavior imitation.

-...

Paper page - Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

2d ago·

huggingface.co

2d ago

Open Dataset Pulse · Feb 25 Daily Digest

New Open-Source Datasets

🔥 mazrba/lite_SFT_train_7lan: New dataset on Hugging Face for supervised fine-tuning in 7 languages.
🔥 VBVR Dataset:...

2d ago

lite_SFT_train_7lan: New Lightweight Multilingual SFT Dataset on Hugging Face

mazrba has released lite_SFT_train_7lan on Hugging Face, a lightweight supervised fine-tuning training dataset for 7 languages to enable efficient multilingual model training.

mazrba/lite_SFT_train_7lan · Datasets at Hugging Face

2d ago·

huggingface.co

2d ago

BuilderBench: Pushing AI Agents to Build Beyond Mimicry

BuilderBench introduces a benchmark for generalist agents to learn building block structures via open-ended exploration, no mimicry.

Key features:
-...

2d ago

CSFM: Multimodal Foundation Model Pretrained on 1.7M Public Cardiac Biosignals

CSFM pretrained on ECG/PPG/text from ~1.7 million individuals via MIMIC-III-WDB, MIMIC-IV-ECG, CODE-FULL datasets
Unifies heterogeneous data...

Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals | Nature Machine Intelligence

nature.com

Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals | Nature Machine Intelligence

2d ago

BOTANIC-0: New Open Plant Genomic Foundation Models on Hugging Face

Exciting release for plant biology AI research:

BOTANIC-0 family (S, M, L: 100M-1B params) pretrained on 43 phylogenetically diverse plant...

BOTANIC-0: a series of foundation models for plant genomic data | bioRxiv

biorxiv.org

BOTANIC-0: a series of foundation models for plant genomic data | bioRxiv

2d ago

M-ErasureBench: New Multimodal Benchmark for Concept Erasure in Diffusion Models

M-ErasureBench at WACV 2026 tests concept erasure across text prompts, embeddings, and latents, including white/black-box scenarios.

Existing...

3d ago

VBVR: 1M+ Video Clips Dataset for Multimodal Reasoning

VBVR-Dataset: Massive open resource with over 1 million video clips to enhance video model reasoning across five cognitive faculties—perception,...

3d ago

CFDLLMBench: Pioneering LLM Evaluation in CFD Workflows

New domain-specific benchmark for scientific AI:

CFDLLMBench tests LLMs on real computational fluid dynamics workflows, beyond general NLP.
-...

Domain-specific benchmarks revealing real-world limits of LLMs

Massive open datasets are reshaping AI training access

Techniques for assembling and refining datasets

Recent Posts

De-Identified KU Leuven Dataset Unlocks Privacy-Safe Learning Analytics Research

Open data, private learners: a de-identified student activity and performance dataset for learning analytics | Scientific Data

MEETI: Open Multimodal ECG Dataset Enhancing Clinical AI Interpretability

MEETI: A Multimodal ECG Dataset from MIMIC-IV-ECG with Signals, Images, Features and Interpretations | Scientific Data

New Multi-Perspective Traffic Video Dataset Boosts Occlusion-Resistant Modeling

Dataset for multi-perspective traffic video analysis | Scientific Data

Open Dataset Pulse · Feb 26 Daily Digest

New Scientific Datasets

Workshop: Neural Embeddings for Efficient EO Data Handling

SciCUEval: New Open Benchmark for LLM Scientific Context Understanding

SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models | Scientific Data

Humanity’s Last Exam: Ultra-Hard Benchmark by 1,000 Researchers Exposes AI Limits

“Humanity’s Last Exam”: The Super-Benchmark AI Is Currently Failing

GenomeOcean: JGI's Open AI Model Scales Genomic Data Interpretation

GenomeOcean: How DOE’s JGI Is Using AI to Read and Write DNA at Scale

Synthia: Physics-Based Synthetic Data Tackles Labeling Scarcity in 2D Materials Microscopy

Data Generation Aids Material Characterisation from Images

Align Foundation & DeepMind Launch AMR AI Data Roadmap

Align Foundation Partners with Google DeepMind on AI Data Roadmap for Antimicrobial Resistance

Insilico Medicine Expands ScienceAIBench to Survival Prediction

Insilico Medicine Benchmarks Frontier AI Models on Survival Prediction Tasks

Conv-FinRe: Novel Open Benchmark for Utility-Grounded Financial AI

Paper page - Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Open Dataset Pulse · Feb 25 Daily Digest

New Open-Source Datasets

lite_SFT_train_7lan: New Lightweight Multilingual SFT Dataset on Hugging Face

mazrba/lite_SFT_train_7lan · Datasets at Hugging Face

BuilderBench: Pushing AI Agents to Build Beyond Mimicry

CSFM: Multimodal Foundation Model Pretrained on 1.7M Public Cardiac Biosignals

Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals | Nature Machine Intelligence

BOTANIC-0: New Open Plant Genomic Foundation Models on Hugging Face

BOTANIC-0: a series of foundation models for plant genomic data | bioRxiv

M-ErasureBench: New Multimodal Benchmark for Concept Erasure in Diffusion Models

VBVR: 1M+ Video Clips Dataset for Multimodal Reasoning

CFDLLMBench: Pioneering LLM Evaluation in CFD Workflows