O korpusie
Korpus to dowolny zbiór tekstów, w którym czegoś szukamy...
Korpus tekstów musi być odpowiednio zrównoważony gatunkowo, chronologicznie, stylowo, terytorialnie i pod innymi względami, np. ze względu na wiek i płeć autorów. Rodzaj zrównoważenia korpusu zależy od celów, jakim korpus służy.
Nasz korpus tekstów polskich to fragment słownikowej kuchni, czyli autentyczny materiał językowy, na którego podstawie opisujemy znaczenia słów i konstrukcji. Pojedyncze zdania z tekstów korpusu zamieszczamy w słownikach jako przykłady ilustrujące znaczenia.
Korpus wykorzystywany do tworzenia słowników ogólnych powinien gromadzić teksty z różnych dziedzin tematycznych, stylów i źródeł.
Zrównoważony tematycznie i gatunkowo Korpus Języka Polskiego PWN liczy 70 milionów słów. Cały korpus, włączając archiwa prasowe i klasykę literacką od średniowiecza, zawiera 100 milionów słów. Składa się z tekstów książek, czasopism, druków ulotnych i akcydensowych (np. reklam, instrukcji obsługi, regulaminów, ulotek wyborczych), stron internetowych oraz tekstów mówionych. W porównaniu z innymi korpusami na świecie nasz zbiór zawiera dość dużo tekstów literackich. Postanowiliśmy bowiem uwzględnić szczególnie żywą w Polsce tradycję autorytetu kulturalnego jako kryterium poprawności językowej.