Question 1

What is the Portuguese Newswire Corpus dataset?

Accepted Answer

Dataset contains x number of newswire articles collected between years 1994-2016. Requires preprocesing of HTML pages, found in GitHub in the download link.

Question 2

Is Portuguese Newswire Corpus a benchmark?

Accepted Answer

Portuguese Newswire Corpus is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download Portuguese Newswire Corpus?

Accepted Answer

Portuguese Newswire Corpus is available at its source: http://mann.cmpe.boun.edu.tr/folha_data/.

Portuguese Newswire Corpus

About Portuguese Newswire Corpus

Details

Related Text Corpora datasets

FAQ