Мрак Катерина: практика з корпусної лінгвістики як приклад зв’язку мовознавства з цифровими технологіями
Практика — це особливий період у житті кожного студента, якого з нетерпінням чекають і ретельно готуються. Я це зрозуміла ще з бакалаврату на прикладній лінгвістиці Національногоуніверситету «Львівська політехніка». Однак там практики з корпусної лігвістики не було. Тому я радію, що програма ОПП «Прикладна лінгвістика» на філологічному факультеті Львівського національного університету імені Івана Франка дає змогу відчути себе частиною справжньої наукової спільноти, яка працює над цифровізацією мови, створенням корпусів та сучасних лінгвістичних ресурсів, адже моя виробнича практика відбувалася у відомій в Україні та за кордоном науковіій установі, зокрема в Українському мовно-іформаційному фонді НАН України. До виконання завдань практики нас готувала її керівник проф. Г.П. Мацюк, а також науковцізгаданого інституту, зокрема к. т. н М. В. Надутенко та вчений секретар інституту, старша наукова співробітниця, к. ф. н. М. В. Надутенко.
Моє завдання полягало у створенні фрагмента спеціалізованого словника термінів на матеріалі корпусу наукових статей, дібраних для теоретичного розділу мого магістерського дослідження на тему «Лінгвостатистичні характеристики паралельного корпусу медійних текстів». Я самостійно відібрала 20 фахових текстів, провела їх очищення від технічного шуму(таблиць, посилань, зображень), об’єднала в єдиний текстовий файл і завантажила у середовище Sketch Engine. Це дало змогу створити власний корпус та сформувати частотний словник лінгвістичних термінів, які вживаються у наукових працях до теоретичного розділу моєї магістерської роботи. Підкреслю, що перед додаванням текстів до корпусу я здійснила ретельне очищення матеріалів. З усіх обраних статей було видалено неінформативні для корпусного аналізу елементи, зокрема ілюстрації, графіки, таблиці, виноски, гіперпосилання, а також формальні посилання на літературу, які могли б спотворити результати лінгвістичного аналізу (так я забезпечилалінгвістичну чистоту текстів та зберегла їхній тематичний фокус). Для виявлення лексичних закономірностей я сформувала CQL-запити, використала вкладки Word List, за допомогою яких я отримала частотний словник корпусу . Обсяг корпусу 32, 618 слів.
На основі цих даних я розробила власний тематичний словник у середовищі КІТ Поліедр. Робота над ним передбачала кілька важливих етапів: ознайомлення зі структурою електронного словника, вивчення прикладів, написання та редагування словникових статей, додавання визначень із корпусу, посилань на джерела, авторських коментарів і медіаілюстрацій. Таким чином, корпус відіграв центральну роль у підготовці словника як емпіричної частини дослідження. Він дозволив мені не лише виявити найуживаніші терміни, а й простежити їхнє функціонування у реальному контексті — у межах автентичних англомовних медіатекстів. За допомогою інструментів корпусного аналізу я досліджувала контексти вживання термінів, вивчала колокації, а також визначала найтиповіші синтаксичні та лексичні конструкції, в яких ці терміни реалізуються.
Також я наповнила блок «Про розробника», де я описала свою діяльність у магістратурі, зокрема участь у трьох наукових конференціях, окреслила коло своїх наукових інтересів, зокрема у сфері корпусної лінгвістики, термінознавства та лінгвістичного аналізу наукових текстів, а також підкреслила актуальність і цілі мого дослідження, включно з завданнями лексикографічного опису.
Рисунок 1. Блок опису
Рисунок 2. Чергова зустріч з науковцями Українського мовно-інформаційного фонду НАН України М. В. Надутенко та М. В Надутенко
Хоч раніше я вже вивчала основи корпусної лінгвістики та розуміла її значення в інформаційних технологіях, саме робота над укладанням словника термінів на базі корпусу виявилася для мене новим видом діяльності. Це дозволило мені поглянути на лінгвістичні інструменти з іншого боку — як на реальний засіб наукової аналітики, термінографії та цифрового упорядкування знань. Я щиро радію, що мала змогу долучитися до такого формату роботи.
Попри те, що виконання основних завдань не становило для мене особливих труднощів, певні виклики все ж виникали. Найбільше складнощів було на етапі ознайомлення з системою KITПоліедр, у якій потрібно було наповнювати капсулу. Інтерфейс і функціонал цього середовища вимагали уважного вивчення, тож на початку виникали питання щодо навігації, завантаження матеріалів та заповнення окремих блоків. Водночас я завжди могла розраховувати на підтримкунауковців інстиутт, які працювали з нами, допомагаючи розібратися з технічними аспектами системи.
Без сумніву, практика зміцнила мою впевненість у вибраній спеціальності та показала, що лінгвістика може й повинна поєднуватися з сучасними цифровими технологіями. Отримані знання я неодмінно використаю у нових наукових і практичних проєктах.
Рисунок 3. Мій звіт про результати практики під керівництвом
Г. П. Мацюк