Вступ до словника

Частотний словник з тематики трьох наукових галузей - мовознавства, літературознавства та філософії (далі ЧН) є першим частотним словником наукового стилю (укладено у 2001 році). Він продовжує серію частотних словників української мови, розпочатою у 1981 р. Частотним словником сучасної української художньої прози (у 2 тт., відп. ред. В.С.Перебийніс. К., Наук. думка ), який був укладений колективом авторів Відділу структурно-математичної лінгвістики Інституту мовознавства НАНУ. Перший словник укладався вручну. Інші словники цієї серії укладалися за допомогою комп'ютера (Частотний словник публіцистики - за грантом Фонду Відродження - той же колектив авторів, Частотний словник поезії у Київському національному університеті і тепер ЧН в Інституті мовознавства НАНУ).

У роботі над укладанням словника брали участь співробітники Відділу структурно-математичної лінгвістики Інституту мовознавства ім. О.О.Потебні НАН України Критська В.І. (канд.філол.наук), Колєнов Г.В. (програміст), Недозим Т.І. (програміст), Орлова Л.В. (канд.філол.наук), Пуздирєва Т.К. (мол.наук.співр.), Романюк Ю.В. (канд.філол.наук).

Автори всіх згаданих частотних словників намагалися дотримуватися правил опрацювання текстів і формування словників, прийнятих у першому словнику серії (В.С.Перебийніс. Принципи укладання частотного словника української мови. - Вісник АН УРСР, 1971, 4, с. 38 - 46). Однак використання комп'ютера (зокрема, програм автоматичного визначення частин мови) і орієнтування на обмеження постредагування зумовили деякі відхилення від цих правил (зокрема, у багатослівних числівниках та займенниках кожна частина рахувалась окремо, омоніми позначалися тільки тоді, якщо вони виділені у Словнику української мови в 11 тт.).

Обстежуваний масив текстів обмежений хронологічно (1976 - 2000 рр.). Для забезпечення вимоги статистичної однорідності у загальну вибірку включено уривки тільки з текстів наукових монографій і статей. Загальний обсяг вибірки 450 тисяч слововживань, відповідно 3 підвибірки по 150 тисяч слововживань, мінімальна вибірка (суцільні тексти) - 1 тисяча слововживань.

У словнику зафіксовані такі характеристики слів і словоформ: абсолютна частота; кількість мінімальних вибірок, де зустрілась одиниця; середня частота у мінімальній вибірці; середньоквадратичне відхилення.

Не всі слововживання (нагадаємо, що слововживання - це послідовність символів між двома пробілами або розділовими знаками) включені до реєстру словника. Науковий текст відзначається особливим складом одиниць, він включає велику кількість, наприклад порівняно з художньою прозою, ілюструючих прикладів (окремих або цілих блоків) і цитат, числа у цифровому зображенні, скорочення слів і словосполучень, абревіатури, позначення нумерації - цифрової або символьної, слова іноземними мовами, власні назви різного типу, формули та символи. Названі типи слововживань склали близько 6,5% загальної вибірки. Приклади або цитати чи інші одиниці з тих, що перелічені вище, скільки б їх не було між двома найближчими словоформами (тобто лексичними одиницями), рахувалися як одне слововживання.

В аналізованих текстах були виділені такі частини мови: іменник, дієслово, ад'єктив (прикметники, дієприкметники та порядкові числівники - за типом відмінювання), прийменник, прислівник, займенник, сполучник, частка, числівник, дієприслівник, предикативні форми (на -но, -то). Словник складають слова та всі словоформи, які репрезентують слова, з приписаною граматичною інформацією відповідно до частини мови. Прийменникам приписана інформація про відмінок. Окремими лексемами вважаються форми ступенів прислівника та фонетичні варіанти слів.

ЧН складається з кількох списків.

1. Алфавітно-частотний список слів та їх словоформ з частотою 2 і більше.

2. Алфавітний список словоформ слів з частотою 1.

3. Частотний (за спадом частот) список слів (з частотою 2 і більше).

4. Частотний (за спадом частот) список словоформ (слів з частотою 2 і більше).