Question 1

What is the Corpus for Knowledge-Enhanced Language Model Pre-training (KELM) dataset?

Accepted Answer

Dataset consists of ∼18M sentences spanning ∼45M triples with ∼1,500 distinct relations from English Wikidata.

Question 2

Is Corpus for Knowledge-Enhanced Language Model Pre-training (KELM) a benchmark?

Accepted Answer

Corpus for Knowledge-Enhanced Language Model Pre-training (KELM) is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download Corpus for Knowledge-Enhanced Language Model Pre-training (KELM)?

Accepted Answer

Corpus for Knowledge-Enhanced Language Model Pre-training (KELM) is available at its source: https://github.com/google-research-datasets/KELM-corpus.

Corpus for Knowledge-Enhanced Language Model Pre-training (KELM)

About Corpus for Knowledge-Enhanced Language Model Pre-training (KELM)

Details

Related Data-To-Text Generation datasets

FAQ