Студент кафедри сходознавства про курси Єнського університету та перший досвід укладання електронного словника

14.12.2023 | 09:13

Мене звати Коцур Назар, і я навчаюся на 2 курсі за спеціальністю «Японська мова та література». Хочу поділитися інформацією про курси Єнського університету імені Фрідріха Шиллера (Німеччина) та своїм першим досвідом укладання електронного словника. Єнський університет, у партнерстві з українськими вузами, проводить курси з цифрової української філології для студентів українських університетів, які цікавляться прикладними аспектами лінгвістики та сучасними проблемами літературознавства.

В осінньому семестрі 2023 року були доступні 6 курсів. Я обрав для проходження два курси: «Компʼютерна лінгвістика» та «Діалекти в епоху компʼютерних технологій», оскільки вони мене найбільше цікавили.

На курсі «Компʼютерної лексикографії» нас ознайомили з різними типами словників та їх застосуванням у сучасних компʼютерних системах з опрацювання природної мови. Нам також розповіли про те, що принципово відрізняє компʼютерні словники від традиційних. Важливу увагу на курсі було приділено дескриптивному підходу до укладання словників та використанню корпусів мов при цьому.

Лекції у нас вела Марія Шведова, кандидатка філологічних наук, доцентка кафедри прикладної лінгвістики Львівської політехніки. Вона також є укладачкою корпусу української мови ГРАК (Генерального регіонального анотованого корпусу української мови).  Пані Марія цікаво пояснювала увесь необхідний матеріал та наочно показувала, як використовують електронні словники в корпусах мов. Вона також навчала, як можна застосувати корпуси для добору матеріалу для власних словників.

Практичні ж заняття вела Оксана Таран, кандидатка філологічних наук, доцентка кафедри прикладної лінгвістики Львівської політехніки. На кожному занятті ми розглядали певні типи словників, а саме: особливості їхньої структури, принципи укладання, матеріал, який ліг в їх основу, тощо. Кожен студент готував інформацію про словники певного типу, які обирав сам. Це було дуже корисно та інформативно, оскільки на парі розглядали не тільки словники, задані у силабусі, але й ті, які студенти особисто використовують у навчанні.

Після завершення курсу кожен студент створював свій електронний словник на платформі Lexonomy, використовуючи знання, здобуті на цьому курсі. Я вирішив створити словник ономатопей японської мови, оскільки саме такий мені був потрібен найбільше і він безпосередньо пов’язаний з темою моєї курсової роботи. Звісно, вже існує  «Японсько-український тематичний словник ономатопеїчної лексики» Оксани Кобилянської та Хіроюкі Еґави, але мені часто траплялися слова, яких у ньому не було. Тому вирішив створити власний. Крім того, електронного словника такого типу немає.

Матеріал до словника було дібрано частково з корпусу та частково шляхом ручного добору з аніме, манґи та казок. Я використав корпус Japanese Web 2011 для пошуку найчастотніших ономатопів, утворених шляхом повторення першої частини (напр., わくわく) — ці слова становлять близько половини об’єму словника. Решту слів я добирав вручну, переважно з аніме「うちの会社の小さい先輩の話」(Uchi no Kaisha no Chiisai Senpai no Hanashi).

Словникова стаття досить проста. Це власне саме заголовне слово, частиномовна належність слова, читання (латиницею за системою Гепберна та кирилицею за системою Коваленка), альтернативна форма написання (якщо існує), читання до альтернативної форми (тільки якщо відрізняється від заголовного слова) та саме значення. Для окремих статей також подано приклад вжитку з проєкту Tatoeba.

Ось приклад статті для ономатопа しばしば:

Або ж для слова モチモチ:

Загальний обсяг словника невеликий — усього 100 статей, однак я продовжуватиму і надалі покращувати та доповнювати його. Переглянути словник можна за цим посиланням: https://www.lexonomy.eu/#/onomatopoeia-ja-uk

На курсі «Діалекти в епоху компʼютерних технологій» лекції вела Людмила Дика, кандидатка філологічних наук з Києво-Могилянської академії. На ньому нам розповіли про діалектний поділ сучасної української мови, основні особливості кожного діалекту, а також про їхню роль у формуванні літературної мови. Пані Людмила чудово пояснювала матеріал. Мені дуже сподобалося те, що нам вмикали записи справжньої діалектної мови, щоб ми могли на слух почути говір.

Зокрема ми також робили практичне транскрибування діалектних записів у програмі ELAN. Це було нашим фінальним проєктом, окрім теоретичних тестів. Транскрипції, які створили студенти, використають у корпусі діалектів української мови. Кожен зможе пошукати певне слово і почути, як воно звучить з уст носія діалекту. Наразі цей проєкт ще в процесі розробки, але я вважаю, що в майбутньому він не тільки стане важливим джерелом досліджень, але й безсумнівно приверне увагу інших користувачів.

У підсумку я би радив ці курси усім, хто цікавиться цифровою українською філологією чи мовознавством загалом. Залишаю для ознайомлення сторінку проєкту: https://www.ukr.uni-jena.de/uk/navchalni-proyekti/studentski-kursi-z-cifrovoji-ukrajinskoji-filologiji