Question 1

What is the The Penn Treebank Project dataset?

Accepted Answer

The Penn Treebank Project is a POS-focused dataset in English that provides ~1M words labeled examples distributed in Text format.

Question 2

Is The Penn Treebank Project a benchmark?

Accepted Answer

The Penn Treebank Project is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download The Penn Treebank Project?

Accepted Answer

The Penn Treebank Project is available at its source: https://github.com/tomsercu/lstm/tree/master/data.

The Penn Treebank Project

Details