Українські голосні: фонетичні характеристики

Питання та відповіді щодо української мови

Модератор: Анатолій

Відповісти
Max
Повідомлень: 167
З нами з: П'ят грудня 28, 2012 4:34 pm

Українські голосні: фонетичні характеристики

Повідомлення Max »

Slavia, 2011, ročník 80, 2011, sešit 4,431-442

МЕТОД АКУСТИЧНИХ ІНВАРІАНТІВ У ДОСЛІДЖЕННІ ГОЛОСНИХ ЗВУКІВ УКРАЇНСЬКОЇ МОВИ

Vakulenko Maksym Oleghovych (Kyjiv, Ukrajina).
Acoustic Invariant Method in the Study of Ukrainian Vowels
On the basis of acoustic invariant speech analysis (AISA), the permanent spectral characteristics of the Ukrajinian vowels are obtained for various ways of pronunciation including ordinary speech, whisper and changing tone. It is shown that the lowest phonemic frequencies due to vocal fold oscillations or to Helmholtz resonance are not associated with persistent sound features. It is conjectured that the only sound invariant is the ratio between formant frequencies, not their absolute values. This analysis is complemented with the computer sound synthesis. It is demonstrated that popular phonetic program Praat gives erroneous results for formant frequencies so that such software is not recommended for acoustic analysis. We show also that the acoustic invariants of the Ukrajinian sound are close to those of English . The results obtained may be useful for specialists in the field of experimental phonetics and speech modelling.
Key words: speech analysis, Praat, speech synthesis, acoustic invariant, formant, linguistic atlas.

Як відомо, мова є комунікативною основою людської діяльності: адже для обміну інформацією ми використовуємо мову – здебільшого таку, що має звукову основу. А звуки мовлення – ті першотвірні цеглинки, з яких складається мова – досліджує фонетика, спираючись при цьому на фізичну інтерпретацію відповідних акустичних явищ і процесів. Тому фонетику в певному сенсі можна назвати базовим розділом мовознавства. Крім того, фонетика є особливою галуззю науки: вона лежить на стику фізики та лінгвістики. З одного боку, ще в кінці минулого століття за міжнародною класифікацією PACS (Physics та Astronomy Classification Scheme) ця наука була підрозділом акустики (її номер 43.70 Hs), а отже, фізики. І користується фонетика фізичними методами дослідження. На цьому наголошував, зокрема, і представник Празької лінгвістичної школи М. Трубецькой (1960, 9): „Наука про звуки мовного акту, яка має справу з конкретними фiзичними явищами, повинна користуватися природничими методами”. З іншого боку, у фонетики суто мовознавчий об’єкт вивчення: це звуки мовлення. Л. В. Бондарко [2:151] зауважує, що "багато властивостей фонетичних одиниць – як би ми їх не називали – звуковими сигналами, артикуляторними жестами чи одиницями психологічного простору – неможливо зрозуміти без урахування їх головної функції – виступати в ролі матеріального носія нематеріальних властивостей будь-якого повідомлення, тобто в ролі форми мовного значення". А інформація про звуки мовлення, одержана в результаті цих досліджень, знаходить своє застосування не лише в мовознавстві – а це вироблення правил написання запозичених слів ([3 4]), вивчення іноземних мов ([5]) та створення транслітераційних систем ([6 8]) для міжнародних і національних стандартів, – а й у різноманітних галузях науки й техніки, зокрема в моделюванні та розпізнаванні мовлення ([9 18]), включаючи таємні комп’ютерні технології. Визначення інваріантних характеристик українських звуків – тобто таких, які не залежать від мовця – особливо актуальне у зв’язку зі створенням атласу звуків української мови в рамках міжнародного проекту „Лінгвістичний атлас Європи” (Atlas Linguarum Europae).
Створення акустичної бази даних для комп’ютерного моделювання мовлення (генерації звукових сигналів) та його розпізнавання (ідентифікації звукових сигналів) вимагає докладної інформації про фізичну суть звуків мовлення та їх нелінійну взаємодію. Ця інформація використовується на стадії попереднього аналізу даних. Глибоке розуміння процесів, які зумовлюють формування фонем, відкриває можливість створення пристрою, здатного розпізнати будь-який потік мовлення незалежно від віку, статі та емоційного стану мовця – такого собі "комп’ютерного секретаря". З іншого боку, належне розуміння впливу психологічних чинників на звукові параметри дозволило б створити надійні детектори брехні, визначники захворювань і звукові замки з вибірковою реакцією на певний емоційний стан. Цілком імовірно, колись ми станемо спроможними точно змоделювати вимову будь-якої особи та відтворити голоси відомих співаків минулого. До того ж, цікавою є можливість доповнення комп’ютерних словників звуковим супроводом. Усі ці завдання тією чи іншою мірою торкаються багатьох науково-технічних проблем – зокрема, створення штучного інтелекту.
На сьогодні створено багато систем автоматичного розпізнавання мовлення, які можуть задовольнити більш-менш вишукані вимоги. Втім, сучасні розпізнавачі, як зізнаються відомі спеціалісти Вейн Лі (Методы 1983), Тарас Вінцюк (1987), Деніел Журафський (2000: 270), див. також (Селіванова 2008: 647), поки що не можуть повністю розв’язати проблеми шумів, навчання, статі, емоційного стану тощо. Зокрема, відповідні комп’ютерні програми Dragon Dictate та Kurzweil дуже чутливі до цих чинників, вимагають тривалого навчання, роблять під час розпізнавання багато помилок та ще й потребують значного обсягу комп’ютерної пам’яті. Отже, з одного боку, штучний розум досяг такого високого рівня, що “Deep Blue” виграє у чемпіона світу з шахів – а тут комп’ютери досі не можуть упоратися з “проблемами диктора” (розуміння іншого мовця), завад (виділення корисного сигналу з шумів) чи емоційного стану. Будь-яка дворняжка легко розпізнає́ свою кличку – навіть якщо чує цю людину вперше – а ще чудово розрізняє голоси і навіть інтонацію. І все це на гамірній вулиці! Слід визнати, що Жучка поки що може дати велику фору відповідним "розумним" пристроям, на виготовлення яких кидаються величезні кошти… А справа в тому, що в таких пристроях закладається надмірна кількість параметрів розпізнавання (як акустичних, так і артикуляційних), внаслідок чого інваріантні та суб’єктивні характеристики звуків мовлення виявляються переплутаними. Тому означена проблема все ще вимагає подальшого дослідження. Тому такою важливою видається узгоджена фізична теорія утворення звуків мовлення та одержання надійних інваріантних характеристик звукових спектрів.
Вагомим чинником, який зумовлює подальший поступ автоматичного розпізнавання мовлення, є сьогоднішній стан фонетичної науки. Дотеперішні дослідження людського мовлення [9 26] базувалися переважно на артикуляції. Порівняно з акустичними властивостями звуків мовлення, їх артикуляція легше піддається дослідженню та класифікації і не так істотно залежить від програмного забезпечення та приладдя – тому й вивчена набагато глибше та детальніше. Про це свідчить і монографія відомого американського фонетиста К. Стівенса "Акустична фонетика" [9], де акустичні характеристики звуків мовлення виводяться саме з артикуляційних моделей. Як більш розроблений, артикуляційний підхід широко застосовується і в сучасних системах розпізнавання мовлення, що переважно базуються на так званій "генеративній моделі" [18] – де розпізнаваний сигнал порівнюється з опорними сигналами, які генеруються комп’ютером на основі даних про артикуляцію. То й не дивно, що такий підхід не дає змоги відділити незалежні від мовця характеристики звука від залежних, які відображають індивідуальність людини. До того ж, як зазначено в [25], дотеперішні моделі мовлення не можуть достеменно відтворити всі особливості його механізму.
У природній же мовленнєвій комунікації вирішальне значення має не артикуляційний, а якраз акустичний механізм (ми тут не будемо торкатися психологічних аспектів сприйняття мовлення). Саме за допомогою акустичного аналізу живі істоти інтерпретують звукову хвилю, яка змушує коливатися їхні барабанні перетинки. Утім, прихильники так званої „моторної” теорії сприйняття мовлення – О. Єсперсен, О. О. Потебня, О. Л. Погодін, П. П. Блонський, А. Ліберман, П. Делатр, Л. А. Чистович та інші – вважали, що слухач підсвідомо артикулює почуті звуки, що й дає змогу їх сприймати та розшифровувати. Але це суперечить мовленнєвій практиці: тоді мало б виходити, що людина не в змозі розуміти кількох співрозмовників одразу або коли сама говорить – адже одночасно вимовити два різних звуки неможливо. Також слухач розумів би лише того мовця, особливості артикуляції якого (темпоритм мовлення, особливості вимови тощо) він може відтворити. Зазначимо, що ця теорія не набула загального визнання: зокрема, Р. О. Якобсон вважав наявність артикуляторної складової у сприйнятті факультативною (Серебренников 1970). Артикуляція не є обов’язковою і для зорового сприйняття тексту, про що свідчить методика швидкочитання, яка спрямована на усунення промовляння слів „про себе”. Нейрофізіологічні дослідження 1861 1874 років показали, що за продукування мовлення відповідає так звана зона Брока, а за розуміння почутого – зона Верніке. Отже, за породження та сприйняття мовлення відповідають різні мозкові механізми (Попова – Стернин 2007, 132 133) – тобто артикуляція звуків і їх розуміння не залежні між собою. Про відсутність зв’язку між сприйняттям мовлення та артикуляцією свідчать і досліди під керівництвом О. В. Овчинникової (див. Серебренников 1970) та І. Н. Горєлова (Попова – Стернин 2007, 308 309). Зокрема, останній дійшов висновку, що зафіксовані при розв’язанні розумових завдань мовленнєві рухи не є моторикою мовленнєвого характеру, це не прихована артикуляція. Отже, нам зовсім не обов’язково знати всі деталі артикуляційного творення звуків, щоб зрозуміти співрозмовника.
Діти вчаться говорити на основі почутих звуків, а знання артикуляції відіграє лише допоміжну роль. Було доведено теоретично та підтверджено експериментально, що мовці прагнуть відтворити відстані між формантами відповідно до акустичної цілі (див. [15]). Саме тому глухі від народження люди є німими: їм бракує звукової інформації для проведення акустичного аналізу мовлення в їхньому мозку. А навчити глуху людину говорити бездоганно – використовуючи артикуляційний підхід – є завданням неможливим. Саме завдяки акустичному аналізу вчаться говорити й папуги – адже їхній артикуляторний апарат зовсім не такий, як у Homo sapiens.
Кожен звук мовлення характеризується як головними (постійними, перманентними) акустичними параметрами, які притаманні даному звуку незалежно від мовця, та побічними (змінними) сумірниками, які характеризують індивідуальність мовця чи даної вимови (це відображається в особливостях швидкості мовлення, тональності, тембру, звукової взаємодії і т. ін.). Перший клас параметрів описується відношенням характерних частот – у цьому неважко переконатися, якщо згадати, що відтворення записаного мовлення на іншій швидкості не змінює якості звуків мовлення (наприклад, [а] не перетвориться при цьому на [о]). Другий клас параметрів визначається як абсолютними величинами – такими, як частота основного тону (ЧОТ) та резонансні частоти звукового тракту мовця – так і відносними – як, наприклад, відносна інтенсивність обертонів чи шумів. Отже, й форманти звуків мовлення розпадаються на два класи: головні (постійні, перманентні) та побічні (змінні). Головні форманти характеризуються інваріантним відношенням їх частот, яке є незмінним для даного звука мовлення. І завданням інваріантно-акустичного аналізу звуків мовлення є визначення цих величин.
Як же, проводячи акустичні експерименти, відрізнити найнижчу головну форманту від нижчих гармонік основного тону, зумовлених голосовою складовою? Є два шляхи "виключення" ефектів голосу: це шепіт і спів. У шепоті голосова складова взагалі відсутня, а при співі (або інтонуванні мовлення) ЧОТ – а з нею і частоти її гармонік – змінюються. Незмінними залишаються тільки формантові частоти (ФЧ), які, як відомо, зумовлені резонансом.
Отже, інваріантно-акустичний аналіз звуків мовлення – це якісно новий метод акустичної фонетики, який дозволяє виявити і прокласифікувати важливі акустичні параметри. Цей підхід є важливим чинником ефективного розвитку сучасної експериментальної фонетики та автоматичного розпізнавання мовлення.
У цій роботі ми дослідимо акустичні характеристики мовленнєвих хвилеформ, які відіграють вирішальну роль у сприйнятті та розпізнаванні мовлення. Як уже було зазначено, кожен звук людського мовлення містить акустичну інформацію як про сам звук, так і про мовця. Для того, щоб відділити одні характеристики від інших, тут застосована методика інваріантно-акустичного аналізу мовлення. Ми з’ясуємо також фізичну картину утворення звуків мовлення та проаналізуємо спектральні характеристики українських голосних для різних способів вимови: звичайного мовлення, шепоту та змінного тону (співу). Буде показано, що найнижчі фонемні частоти, зумовлені коливаннями голосових зв’язок і резонансом Гельмгольца, не можуть бути пов’язані з головними формантами – за винятком деяких випадків мовлення високим тоном, коли основна частота дорівнює частоті першої форманти: F0 = F1. Якщо ЧОТ настільки висока, що в резонаторі вміщується дві або більше хвиль кратної частоти (обертонів), виникають додаткові високочастотні резонанси – а з ними додаткові форманти на частотах, пропорційних частотам головних формант. Найважливіший висновок полягає в тому, що єдиним фонемним інваріантом є відношення постійних ФЧ. Цей аналіз доповнено комп’ютерним синтезом деяких звуків. Показано, що акустичні інваріанти українського звука та англійського однакові. Якщо звук “змішаний” з іншим, у ньому виникають додаткові максимуми на частотах, відношення яких відповідає домішаному звуку. Отримані результати можуть бути корисними для спеціалістів у галузі експериментальної фонетики та моделювання мовлення.
Нагадаємо, що в мовленнєвому тракті (МТ) людини можливі два типи резонансу. По-перше, це низькочастотний резонанс Гельмгольца (РГ), який виникає в об’ємі зі звуженням з одного боку (відкритою трубою меншого діаметра) – тобто відповідний резонатор має пляшкоподібну конфігурацію. По-друге, це трубний резонанс (ТР), або резонанс у трубі, де труба може бути закритою з обох кінців чи з одного (див. Stevens 1998). Для конфігурації, що складається з великого об’єму (який зумовлює акустичну податливість) та звуження (акустична маса), де розміри об’єму та звуження малі порівняно з довжиною хвилі H = c/fH (c – швидкість звукової хвилі), власна частота Гельмгольца становить
fH = [c/(2)][A/(Vl)]1/2 , (1)
де A та l – площа поперечного перерізу та довжина вузької труби відповідно, а V – об’єм широкої труби (подробиці див. у (Stevens 1998, 142)). Цей резонанс може існувати при достатньо низьких частотах (приблизно до 500 Hz), де вищі гармоніки не задіяні.
Власні (вільні) частоти напівзакритої труби довжиною l зі сталим поперечним перерізом зумовлюються чвертьхвильовим резонансом і становлять:
fn = [(2n – 1)/4](c/l), (2)
де n = 1, 2, 3, ... – номер власної частоти (подробиці див. у Stevens 1998, 138-139).
Якщо труба закрита чи відкрита з обох кінців, виникає півхвильовий резонанс, і
fn = [(n – 1)/2](c/l). (3)
Якщо ЧОТ перевищує частоту РГ (або навіть якщо трохи менша за неї), то мають місце тільки (2) та (3), при цьому параметр n пробігає вищі значення.
Слід розрізняти власні частоти голосового тракту, які мають фіксовані значення для даної його конфігурації у даної людини, та ФЧ, які визначають даний звук мовлення (цю відмінність не відзначено в Stevens 1998). Перші величини, безумовно, залежать від особистості мовця. Якщо частота якої-небудь парціальної гармоніки у спектрі джерела (включаючи ЧОТ) наближається до вільної частоти МТ, її амплітуда зростає. Це спричиняє утворення бажаного (чи випадкового) звука мовлення. Якби нам вдалося визначити спосіб, у який максимуми кожного звука мовлення пов’язані з незалежними від мовця чинниками, це допомогло б істотно наблизитися до успішного розв’язання проблеми розпізнавання мовлення.
При цьому слід чітко уявляти, що таке форманта – і дати таке її означення, що точно та адекватно відображає суть поняття. Ось посібник [26: 42] означує форманти як “зони посилення частот”. Таке формулювання не має фізичного змісту. По-перше, не треба плутати форманту з зоною чи частотою – це різні поняття. По-друге, посилюється те, що має силу: вітер, обійми тощо – а частоти можуть зростати. А насправді ж у резонансній області відбувається зростання амплітуд звукових коливань – а ніяк не частот. До того ж, як ми побачимо нижче, деякі гармоніки, що визначають даний звук мовлення, не обов’язково інтенсивніші за інші (це трапляється за РГ, а також коли один звук “змішаний” з іншим, або якщо звук перебуває під впливом сусіднього). Тому будемо розглядати форманту як моду звукової хвилі (обертон), що потрапляє в область резонансу і дає істотний внесок в утворення даного звука мовлення ([27:21; 28]).
А тепер проаналізуємо особливості РГ у звуковій хвилі, щоб з’ясувати, якою мірою він може стосуватися перманентних характеристик звуків мовлення.
1. Коливання тиску повітря, що надходить у людське вухо чи мембрану мікрофона, описуються добре відомим виразом
pr(f) = [if/(2r)]Ur(f)exp(-2ifr/c), (4)
де i – уявна одиниця, f – частота,  – густина повітря, , c – швидкість звуку в повітрі, r – відстань від рота, pr – звуковий тиск на відстані r, Ur – об’ємна швидкість на відстані r (див., напр., [9:127 128]). Із (4) видно, що низькочастотне збудження спричиняє меншу амплітуду тиску, ніж високочастотне – тобто моди з вищими частотами є виразнішими. Це вказує на те, що найважливіші акустичні характеристики звуків мовлення містяться, швидше за все, в діапазоні середніх і високих частот.
2. Унаслідок великої дисипації енергії в низькочастотній області, резонанс Гельмгольца у голосовому тракті зазвичай характеризується значними ширинами та не дуже великими амплітудами. Ці втрати енергії зумовлені імпедансом (повним опором) стінок МТ ([9:157,193; 22; 23]), в’язкісними та тепловими втратами ([10; 19], див. також [9:160-161]), розкриттям глотки ([9:165 166]) чи звуженням мовленнєвої порожнини ([9:534]), а також нелінійним акустичним опором ([5:163 164]). Відтак зменшується можливість виявлення відповідної амплітуди – а з нею й роль такої моди в утворенні звука. Для більшості конфігурацій МТ у мовленні шепотом акустичні втрати внаслідок широкого глоткового розкриття такі великі, що відбувається критичне загасання РГ, і відповідний спектральний пік повністю згладжується (див. [9:165,171] та [20; 21]). Проте звуки [і], [и], [у], [л], [м], [н], [с] та інші, у яких нижні форманти спричинені РГ, не зникають зовсім: їх можна почути й ідентифікувати навіть у шепоті.
3. Поверхня язика, щік і гортані не є твердою – а отже, виникає реактивний опір маси стінок, який зумовлює істотну зміну найнижчої власної частоти МТ. У роботах [22; 23] було знайдено, що ця поправка становить близько 180 Hz для дорослого чоловіка та 190 Hz для дорослої жінки. Через це низькі частоти найменше контролюються артикуляційними рухами. У праці [9:160] відзначається, що частота 250 Hz лише наполовину чутлива до зміни конфігурації МТ. Це знову вказує на те, що частоти Гельмгольца навряд чи відіграють важливу роль у формуванні суттєвих особливостей звуків мовлення.
4. Експерименти зі сприйняття голосних [12; 13] показали, що сукупність найнижчих гармонік інтерпретується як єдиний максимум, якщо вони розташовані достатньо близько до ЧОТ – приблизно не далі, ніж 300 Hz у діапазоні нижче 500 Hz.
Втім, людське вухо може відчути значно меншу різницю частот. Наприклад, музиканти та співаки спроможні розрізняти інтервали в чверть тону, що відповідає кільком герцам (чи навіть менше) у діапазоні частот мовлення. Отже, наш мозок, аналізуючи звукову хвилю, просто не бере до уваги деякі найнижчі частоти. ЧОТ ігнорувати не можна, тому що висота тону важлива в інтонуванні мовлення та співі. Тому виходить, що саме частоти Гельмгольца сприймаються нашим мозком як найменш важливі для розрізнення звуків.
5. Згадаймо, що ЧОТ, яка визначає висоту тону, є найнижчою в звуковій хвилі. Нижче неї не може бути ніяких максимумів. Утім, ця частота легко досягає значення 500 Hz у звичайному мовленні та 1000 Hz і вище під час співу – тоді як РГ зумовлює частоти не вище приблизно 500 Hz. Але під час мовлення та співу високим тоном звуки [і], [и], [у], [л], [м], [н], [с], найнижчі форманти яких, як зазначено в [26:57], мали би міститися в діапазоні 200-400 Hz, не вироджуються. Це говорить про те, що низькі частоти не дуже істотні для утворення звуків мовлення.
Підсумовуючи сказане, слід зазначити, що ефекти Гельмгольца невиразні або цілком відсутні у багатьох способах мовлення і що відповідний резонанс не може відігравати помітної ролі в ідентифікації звуків мовлення. Таким чином, РГ – за умови достатньо низької ЧОТ – може давати внесок лише у побічні характеристики, що відображають індивідуальність мовця (такі, як тембр голосу) та ефекти, пов’язані зі взаємодією звуків.
Щоб відділити інваріантні акустичні характеристики від варіативних, згадаймо той факт, що відтворення магнітофонного запису на підвищеній швидкості (“голос Буратіно”) не змінює один звук мовлення на інший (тобто, наприклад, [a] залишається звуком [a], не перетворюючись на [o] чи на ) Таке відтворення еквівалентне збудженню вищих гармонік основної хвилі, яка потрапляє в ТР (нагадаємо, що РГ для обертонів неможливий). Іншими словами, якщо кожну ФЧ звука мовлення пропорційно змінити, то якісні ознаки цього звука зберігаються. Отже, інваріантом кожного звука мовлення може бути лише відносна величина, зумовлена ТР – а саме відношення між частотами його формант. Це логічно пояснює результати [16], де спостерігалася кореляція між F0 і формантовими частотами голосних звуків, і [29], де мікродинамічна поведінка французьких, англійських і чеських голосних виявилася незалежною від ЧОТ. Звертали увагу на мінливість абсолютних значень ФЧ і В. Зу та Р. Шварц ([17:165]). У термінах відношень ФЧ ми можемо пояснити й той факт, що різні люди, маючи різні довжини голосового шляху та відповідно різні ФЧ, здатні вимовляти ті ж самі звуки.
Тепер можна пояснити, чому деякі музичні інтервали приємні для слуху (це питання поставив Р. Фейнман у [30:440]): просто такі відношення частот природно відображають сутність звуків людського мовлення.
Щоб дістати відношення, потрібно два параметри. Тому кожен звук мовлення (крім носових) повинен мати дві незалежні головні ФЧ (які найчастіше відповідають резонансам у передній і задній порожнинах), а носові мають три таких частоти (додаткова ФЧ зумовлена носовою порожниною). Це твердження узгоджується з експериментальними даними [14], які свідчать, що для задовільного сприйняття неносових голосних потрібно лише дві форманти.
Експериментальна частина цієї роботи полягає не лише в тому, щоб зібрати певний масив акустичних даних, але й перевірити наші теоретичні припущення про те, що інваріантні параметри звуків мовлення є відносними величинами та що вони не можуть зумовлюватися РГ. Щоб провести інваріантно-акустичний аналіз мовлення, ми будемо шукати такі постійні форманти за змінних умов: це різні мовці, різні способи вимови та застосування альтернативних процедур хвильового аналізу. Також ми обчислимо відповідні відношення.
У наших експериментах було задіяно 4 українських мовці: дві жінки (19 та 26 років) і два чоловіки (по 34 роки). Вони вимовляли (повторюючи тричі) окремі звуки нормальним тоном, пошепки та змінним тоном (угору та вниз), а також слова та комбінації слів: хата, ха-ха, гадати, ходити, сидіти, лежати, я піду гуляти, бики, боки, якби, вийти, увійти, за Сибіром сонце сходить, зілля, шиття, жіночі хитрощі, докір, здіймати, клепки, легко, хтось, не треба, це буде, як з кроликами – у нормальному тоні та пошепки. Така процедура дає змогу відібрати характеристики, незалежні від способу вимови. Ми не ставили за мету зібрати великий масив акустичних даних від великої кількості мовців. Ключова ідея полягає у використанні різних варіантів вимови: 1) нормального мовлення, 2) шепоту, 3) зростального тону, 4) спадного тону. Якщо якийсь акустичний параметр присутній у всіх варіантах вимови, його можна розглядати як можливий інваріант звука мовлення. У цьому сенсі акустичний матеріал, одержаний від одного мовця, є значно більш репрезентативним, ніж комбінація "нормальна вимова чотирьох мовців".
Звукові сигнали були записані в ізольованій кімнаті за допомогою однонапрямного динамічного мікрофона Tech TDM-204 на відстані 5-10 см від губ суб’єкта мовлення, використовуючи комп’ютерну програму Sound Forge 4.0. Акустичний аналіз проводився за допомогою програм WaveLab 2.1 і CoolEdit 95. ЧОТ та ФЧ вимірювалися за допомогою: 1) осцилограми, 2) спектрограми тривимірного частотного аналізу програми WaveLab 2.1, 3) двовимірної спектрограми програми CoolEdit 95. Потім отримані результати порівнювалися та усереднювалися. Статистичні похибки зумовлюються людським фактором, точністю хвильового аналізу програм, кроком точності спектрограми та розпливанням спектрів.
Ми свідомо не користувалися популярною серед фонетистів програмою Praat – через її низьку надійність. Побіжно перелічимо основні недоліки цієї програми.
1. Двовимірні спектрограми – а разом із ними й механізм обчислення формант у програмі Praat – погано виділяють корисні сигнали (форманти) на інтенсивному шумовому тлі, яке притаманне приголосним звукам і шепоту.
2. У звуковому потоці, а також якщо один звук змішаний з іншим, деякі істотні форманти можуть поступатися за амплітудою іншим пікам. Це явище не передбачене в названій програмі.
3. Програма Praat фіксує рівно чотири максимуми і ототожнює їх із формантами. У багатьох приголосних звуках ширина формантової зони (ФЗ) може бути значною і містити декілька формантових смуг. Таким чином із поля зору дослідника можуть випадати інші важливі форманти, якщо вони мають меншу амплітуду і програма „вирішить” обмежитися максимумами з цієї широкої ФЗ. Те саме відбувається, коли корисний сигнал змішаний зі значним шумом (як супутнім, так і стороннім).
4. Низька точність визначення ФЧ.
5. Ця програма не має достатнього контролю результатів за допомогою альтернативного способу визначення формант.
Наприклад, у типовій реалізації звука [ж] у діапазоні частот до 7800 Hz Praat „не помітила” форманти у смузі 1300–1500 Hz (–60 dB), а зате „знайшла” зайву форманту на частотах 5911–6276 Hz (–56 dB). У діапазоні до 5800 Hz ця програма ідентифікувала як форманту випадковий шум на частоті 174 Hz.
Показовим є порівняння точності визначення ФЧ за допомогою різних програмних продуктів. Так, частоту опорного сигналу 4000 Hz програма Sound Forge сприймає як 3998 Hz (похибка 0,05%), 1000 Hz – як 994 Hz (похибка 0,6%), 100 Hz – як 92 Hz (похибка 8%). Таким чином, у результатах, одержаних за допомогою Sound Forge, неточною є тільки остання цифра (розряд одиниць). Програма Praat у монохроматичному сигналі з частотою 5000 Hz „віднайшла” форманти на частотах 1068–1081, 2344–2352, 4959 і 4997 Hz, у сигналі з частотою 1000 Hz – „форманти” на частотах 978, 1022, 1084–1122 і 3490–3754 Hz, у сигналі з частотою 100 Hz – „форманти” на частотах 111, 2588–2793 і 3933–4002 Hz. Така точність не може задовольняти фахівців, які претендують на серйозні результати.
Отже, отримані тут акустичні характеристики – пораховані „вручну”, проконтрольовані візуально та зіставлені з даними альтернативної процедури – мають значно вищу надійність порівняно з результатами, одержаними за допомогою програми Praat.
У цій роботі ми зосередимося на українських голосних [а], [о], [у], [и], [і], [е].
У Табл. 1 наведені інваріантні частотні характеристики українських голосних: середні значення першої головної ФЧ (Fp1) та другої головної ФЧ (Fp2) разом із відповідними резонансними зонами, та відношення між цими частотами. Мовець 1 жіночої статі, вік 26 років, зріст 165 см, мовець 2 жіночої статі, вік 19 років, зріст 168 см, мовець 3 чоловічої статі, вік 34 роки, зріст 176 см, мовець 4 чоловічої статі, вік 34 роки, зріст 175 см.
Число гармонік найменше в [і] та найбільше в [а] та [о]. Найвиразніший резонанс (контраст амплітуд) проявлявся в [а] та [o], тоді як звук [и] виявився “найневиразнішим”.
За нормального мовлення у спектрі звука [и] та меншою мірою [і] спостерігалися значні амплітуди в діапазоні 200-500 Hz, зумовлені РГ перших гармонік (див. Мал. 1-3). Але ці максимуми зникають за підвищення ЧОТ, коли частота першого обертону достатньою мірою перевищує частоту Гельмгольца: f1 = 2F0 > fH , і стають украй невиразними в шепоті. Це підтверджує наш висновок про те, що РГ не може давати перманентні, інваріантні характеристики звуків мовлення.
Табл. 1. Інваріантні акустичні характеристики українських голосних
Звук Мовець Середнє значення Fp1 та зона резонансу, Hz Середнє значення Fp2 та зона резонансу, Hz Відношення Fp2/Fp1
[а] 1
2
3
4 830 (760–900)
830 (800–850)
820 (750–880)
820 (750–900) 1100 (1050–1150) 1100 (1000–1200)
1100 (1000–1200)
1100 (1000–1200) 4/3 (1.33 ± 0.04)
4/3 (1.33 ± 0.04)
4/3 (1.34 ± 0.04)
4/3 (1.33 ± 0.04)
[о] 1
2
3
4 530 (480–580)
550 (510–700)
530 (470–680)
530 (470–700) 790 (710–880)
820 (720–1000)
790 (700–880)
790 (700–1100) 3/2 (1.49 ± 0.15)
3/2 (1.49 ± 0.15)
3/2 (1.49 ± 0.15)
3/2 (1.49 ± 0.15)
[у] 1
2
3
4 3600 (3400–4000)
4100 (3800–4300)
3700 (3400–4100)
3800 (3600–4000) 5800 (5400–6100)
7000 (6400–7600)
6100 (5500–6500)
6400 (6200–6600) 5/3 (1.61 ± 0.08)
5/3 (1.71 ± 0.06)
5/3 (1.65 ± 0.09)
5/3 (1.68 ± 0.04)
[и] 1
2
3
4 1800 (1300–2000)
1800 (1600–2100)
1800 (1400–2000)
1800 (1500–2100) 2100 (1800–2400)
2200 (1900–2600)
2200 (1800–2700)
2200 (1900–2500) 6/5 (1.17 ± 0.07)
6/5 (1.22 ± 0.06)
6/5 (1.22 ± 0.06)
6/5 (1.22 ± 0.06)
[і] 1
2
3
4 2300 (2000–3000)
2400 (2000–3500)
2500 (2100–3400)
2400 (2100–3400) 2900 (2500–3800)
3000 (2500–4400)
3100 (2700–4200)
3000 (2500–4200) 5/4 (1.26 ± 0.08)
5/4 (1.25 ± 0.07)
5/4 (1.24 ± 0.08)
5/4 (1.25 ± 0.07)
[е] 1
2
3
4 700 (610–780)
700 (580–950)
700 (550–930)
700 (520–920) 2100 (1600–2400)
2100 (1800–2800)
2100 (1700–2500)
2100 (1600–2600) 3 (3.00 ± 0.30)
3 (3.00 ± 0.30)
3 (3.00 ± 0.30)
3 (3.00 ± 0.30)
Для порівняння ми дослідили форманти, зумовлені ТР у різних акустичних реалізаціях англійської фонеми /i/ ([і:] та [І]), використовуючи англійський навчальний аудіокурс "Kernel", американський "Learn to speak English" та власні записи мовлення американців під час стажування в Техаському університеті в Арлінгтоні, США за програмою Фулбрайта (2003-2004). Було виявлено, що ця фонема характеризується формантами з відносно стабільними частотами: Fp1 = 2000 Hz (1800 – 2200 Hz), Fp2 = 2500 Hz (2300 – 2700 Hz) і формант-відношенням r = Fp2/Fp1 = 5/4 (велика терція), що відповідає українському (див. Мал. 4). Низькочастотна (~300 Hz) побічна форманта, зумовлена РГ, не може бути включена в інваріантні співвідношення.
У нормальному мовленні спектр [у] визначається насамперед низькочастотним РГ, де F1H = 300 – 450 Hz та F2H = 500 – 780 Hz, а відношення частот становить rH = 5/3 (1.70 ± 0.03). При мовленні високим тоном та шепотом, коли виникають обмеження на цей вид резонансу, починають домінувати відносно високочастотні максимуми з тим самим відношенням між їхніми частотами, r = 5/3 (представлені в Табл. 1). У деяких випадках спостерігалася також додаткова форманта з частотою Fadd = 2100 – 2600 Hz, де Fp1/Fadd = 5/3. Під час шепоту виникала також додаткова пара формант, де Fp1ex = 3000 – 32000 Hz та Fp2ex = 5000 – 5200 Hz, r = 5/3. Найвірогідніше, всі ці додаткові резонанси зумовлені ТР в одній із порожнин МТ та в звуженні між двома порожнинами.
Коли висота [a] понижується, наступні вищі гармоніки потрапляють в область резонансу, а нижчі загасають (див. Мал. 5).
Коли висота тону зростає, пари формант "пересуваються" вище по частотній шкалі. Так, у високому звуку [a] з F0 = 800 Hz (значно вище діапазону Гельмгольца) ми спостерігали основну пару головних формант із частотами Fp1 = 3000 Hz (2800–3200 Hz), Fp2 = 4000 Hz (3800–4200 Hz) та додаткову, де Fp1(2) = 6000 Hz (5700–6300 Hz), Fp2(2) = 8000 Hz (7700–8300 Hz). Відношення ФЧ лишилося тим же: r = 4/3.
На Мал. 6, 7 зображені різні варіанти вимови звука [е], де r = 3.
Якщо один звук “змішується” з іншим (як [у] в комбінації [оу] чи у вимові "o"-типу), виникають додаткові максимуми на частотах із відношенням, притаманним "домішаному" звуку. Зокрема, звук [у] з “o-домішкою” набуває додаткових формант на частотах F1(o) = 2400-3000 Hz, F2(o) = 3000-4500 Hz із відношенням r(o) = F2(o)/F1(o) = 3/2.
Відзначимо цікаву особливість звуків мовлення – їх аналогію з музичними інтервалами. Так, звукові [и] відповідає мала (мінорна) терція, [і] – велика (мажорна) терція, [а] – кварта, [о] – квінта, [е] – квінта через октаву. Відтак, наявність звуків [і] та [и] в українській мові – безсумнівний доказ її багатства та розвиненості: адже вона, як цікава мелодія, містить і мажорні, і мінорні лади.
Отже, як ми й очікували, акустичні інваріанти зумовлюються ТР.
Така сталість формант-відношення – вкрай важливий результат, який підтверджує наше теоретичне передбачення про те, що єдиним фонемним інваріантом є відношення частот головних формант.
Проведений аналіз дає змогу створити будь-який звук засобами хвильового синтезу. При цьому штучно створені звуки (синтезовані хвилеформи [а], [і], [и]) мають більш стабільне та чисте звучання, ніж натуральні.
Нами спостережено значні відмінності в амплітудах гармонік від мовця до мовця, що добре узгоджується з експериментальними даними [11; 20; 21; 24], які свідчать, що амплітуда гармонік поблизу 2,5 kHz відносно амплітуди першого обертону може варіюватися в інтервалі до 20 dB залежно від мовця. Це дозволяє припустити, що тембр голосу особи проявляється у відношеннях амплітуд гармонік.
Отже, ми дослідили спектральні характеристики українських голосних для різних варіантів вимови: звичайного мовлення, шепоту та змінного тону. Було продемонстровано, що поширена фонетична програма Praat визначає форманти помилково. На основі інваріантно-акустичного аналізу мовлення були знайдені акустичні інваріанти (формант-інваріанти) цих звуків. Було покладено, що форманти звуків мовлення розпадаються на два класи: головні (постійні, перманентні), які зумовлюють інваріантні акустичні характеристики, та побічні (змінні), які пов’язані з особливостями особи чи вимови. Головні форманти характеризуються інваріантним відношенням їх частот, яке є незмінним для даного звука мовлення. Було показано, що у нормальному мовленні найнижчі фонемні частоти можуть бути частотами побічних формант, зумовлених резонансом Гельмгольца. Додаткові резонанси можуть виникати за достатньо високої ЧОТ, коли у резонаторі вміщується кілька вищих обертонів: n = 1, 2, …, і т.д. У цьому випадку з’являються додаткові форманти на частотах, пропорційних частотам головних формант. Показано також, що формант-інваріанти українського звука та англійського однакові.
Найважливіший висновок цієї праці такий: єдиним фонемним інваріантом є відношення між частотами головних формант, а не їх абсолютні значення. Одержані результати можуть стати в нагоді спеціалістам у галузі експериментальної фонетики та моделювання мовлення.
Ця робота частково підтримана грантом № 68427736 програми Фулбрайта на 2003-2004 академічний рік.

1. Трубецкой Н. С. Основы фонологии / Н. С. Трубецкой ; [пер. с нем. А. А. Холодовича ; ред. С. Д. Кацнельсона.]. – М. : Изд во иностранной лит ры, 1960. – 371 с. – С. 7 22.
2. Бондарко Л. В. Фонетика в системе университетского филологического образования // Загальна та експериментальна фонетика: Зб. наук. праць і матеріалів / Відп. ред. Л.Г. Скалозуб. – К.: Видавничий Дім "Соборна Україна", 2001. – 320 с.– С. 150-157.
3. Вакуленко Максим. Правописні аспекти науки термінології. – Вісник Книжкової палати, 1998, №11. – С. 15-17.
4. Вакуленко М. О. Правило „дев’ятки” в контексті слов’янських і неслов’янських паралелей української мови / Максим Олегович Вакуленко // Компаративні дослідження слов’янських мов і літератур: Пам’яті академіка Леоніда Булаховського: Зб. наук. пр. – Вип. 10. – К. : Видавн.-поліграф. центр „Київський університет”, 2009. – 479 с. – С. 21–27.
5. Studies in Communicative Phonetics and Foreign Language Teaching Methodology / M.P. Dvorzhetska, A.A. Kalita, Eds. Lenvit. Kyjiv, 1997. – 8 p.
6. Вакуленко М. О. Восточнославянская латиница в международном контексте / Maksim Olegovič Vakulenko // Slavia, Praha. – 1998. – R 67. – С. 333 339.
7. Vakulenko M.O. Transliteration Through a Slavonic Latin Alphabet: Saving Information and Expenses. – Вісник Київського лінгвістичного університету. – Серія Філологія. – Т. 2, № 1 (1999). – С. 85-94.
8. Vakulenko M. Simple-correspondent transliteration through a Slavonic Latin alphabet / M. Vakulenko // Journal of Language and Linguistic Studies. – Vol. Three, Issue Two. – September 2004. – P. 213 228.
9. Stevens K. N. Acoustic Phonetics. MIT Press, 1998. – 607 p.
10. Flanagan J. L. Speech analysis, synthesis, and perception. Berlin: Springer-Verlag, 1972.
11. Klatt D. H., Klatt L. C. Analysis, synthesis, and perception of voice quality variations among female and male talkers, J. of the Acoustical Soc. of America, 87 (1990). P. 820-857.
12. Traunmüller 1981: Traunmüller, H.: Perceptual dimensions of openness in vowels. J. of the Acoustical Soc. of America, 69, 1981, p. 1465-1475.
13. Hömeke – Diehl 1994: Hömeke, K. A. – Diehl, R. L.: Perception of vowel height: The role of F1-F0 distance. J. of the Acoustical Soc. of America, 96, 1994, p. 661-674.
14. Carlson – Granström – Fant 1970: Carlson, R. – Granström, B. – Fant, G.: Some studies concerning perception of isolated vowels. Speech Transmission Laboratory Quarterly Progress and Status Report 2-3. Royal Institute of Technology, Stockholm, Sweden, 1970, p. 19-35.
15. Menard L., Schwartz J.-L., Boё L.-J., Aubin J. Articulatory-acoustic relationships during vocal tract growth for French vowels: Analysis of real data and simulations with an articulatory model, J. of Phonetics, 35 (2007). P. 1-19.
16. Nearey T.M., Assmann P.F. Information conveyed by f0 for vowel identification, J. of the Acoustical Soc. of America, 119 (2006). P. 3339.
17. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ. / Под ред. У. Ли. – Москва: Мир, 1983. – Книга 1. – 328 с., ил.
18. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов.– Киев, 1987.– 262 с.
19. Fant G. Acoustic theory of speech production. The Hague, Netherlands, 1960.
20. Stevens K.N., Hanson H.M. Classification of glottal vibration from acoustic measurements. In: Vocal fold physiology: Voice quantity control / O. Fujimura, M. Hirano, Eds. San Diego: Singular, 1995. P. 147-170.
21. Hanson 1995: Hanson, H. M.: Glottal characteristics of female speakers. PhD dissertation, Harvard University, Cambridge MA, 1995.
22. Fujimura O., Lindqvist J. Sweep-tone measurements of vocal-tract characteristics, J. of the Acoustical Soc. of America, 49 (1971). P. 541-558.
23. Fant G., Nord L., Branderud P. A note on the vocal tract wall impedance, Speech Transmission Laboratory Quarterly Progress and Status Report 4, Royal Institute of Technology, Stockholm, Sweden, 1976. P. 13-27.
24. Holmberg E.B., Hillman R.E., Perkell J.S. Glottal airflow and transglottal air pressure measurements for male and female speakers in soft, normal and loud voice. J. of the Acoustical Soc. of America, 84 (1988). P. 511-529.
25. Zhang Zh., Neubauer J., Berry D.A. The influence of subglottal acoustics on laboratory models of phonation, J. of the Acoustical Soc. of America, 120 (2006). P. 1558-1569.
26. Тоцька Н.І. Сучасна українська літературна мова: фонетика, орфоепія, графіка, орфографія. – Київ: Вища школа, 1981. – 183 с.
27. Вакуленко М.О. Аналіз та синтез звукових спектрів людського мовлення. – Пульсар, № 6-7, 1999. – С. 20-23.
28. Вакуленко М.О. Акустичні характеристики та інваріанти звуків української мови. – Науковий вісник кафедри ЮНЕСКО КДЛУ. – Філологія, педагогіка, психологія. – Вип. 1. Київ, 2000. – С. 62–66.
29. Dubeda T., Keller E. Microprosodic aspects of vowel dynamics – an acoustic study of French, English and Czech, J. of Phonetics, 33 (2005). P. 447-464.
30. Лекции 1976: Фейнмановские лекции по физике. Тт. 3, 4: Излучение, волны, кванты. Кинетика, теплота, звук // Р. Фейнман, Р. Лейтон, М. Сэндс. – / Перевод с английского А. В. Ефремова, Г. И. Копылова, Ю. А. Симонова, О. А. Хрусталева // Под ред. Я. А. Смородинского. – Москва: Мир, 1976, 496 с.

Jurafsky D. S. Speech and Language Processing : An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition / Daniel S. Jurafsky, James H. Martin. – New Jersey : Prentice-Hall, Inc. ; Pearson Higher Education ; Boulder : Univ. of Colorado, 2000. – XXVI + 934 p.
Общее языкознание : формы существования, функции, история языка / [отв. ред. Б. А. Серебренников]. – М. : Наука, 1970. – 597 с.
Селіванова О. О. Сучасна лінгвістика: напрями та проблеми : [підручник] / О. О. Селіванова. – Полтава : Довкілля К, 2008. – 712 с.
Попова З. Д. Общее языкознание : учебное пособие / З. Д. Попова, И. А. Стернин. – [2 е изд., перераб. и доп.]. – М. : ACT ; Восток Запад, 2007. – 408, [8] с. – (Лингвистика и межкультурная коммуникация. Золотая серия).
Відповісти

Повернутись до “Мовні консультації”