Як це працює? | розпізнавання мови

Перший пристрій для розпізнавання мови з'явилося в 1952 році, воно могло розуміти вимовлені людиною цифри. 40 років по тому були представлені перші комерційні програми, що розпізнають мова людини. Вони були призначені для людей, які в силу фізіологічних особливостей не могли набирати текст вручну. Зараз же функція розпізнавання мови є практично в будь-якому смартфоні, вона дозволяє нам взаємодіяти голосом з додатками, полегшуючи і спрощуючи наше життя. Як же працює розпізнавання мови - про це в сьогоднішньому випуску.

Як же працює розпізнавання мови - про це в сьогоднішньому випуску

Якщо вимовити голосовий запит, наприклад, адреса місця призначення, смартфон почує не вулиця і номер будинку, а звуковий сигнал, в якому звуки плавно перетікають одна в одну, не маючи чітких кордонів. Завдання системи розпізнавання мови - відновити за цим сигналом те, що було сказано. Варто відзначити, що одна і та ж фраза, вимовлена ​​різними людьми в різній обстановці, буде давати абсолютно несхожі один на одного сигнали. Правильно їх інтерпретувати допомагає система акустичного моделювання.
Якщо вимовити голосовий запит, наприклад, адреса місця призначення, смартфон почує не вулиця і номер будинку, а звуковий сигнал, в якому звуки плавно перетікають одна в одну, не маючи чітких кордонів
Після проголошення голосового запиту він записується смартфоном і відправляється на сервери, де визначається рівень перешкод і відбувається шумоотчістка і відділення корисного сигналу. Потім запис розділяється на маленькі фрагменти (фрейми), наприклад, довжиною 25 мілісекунд з кроком 10 мілісекунд, тобто внахлест. Таким чином з однієї секунди мови виходить сто фреймів.

Спочатку кожен фрейм пропускається через акустичну модель. Система з машинним навчанням, визначає варіанти вимовлених слів і контекст. Точність результатів безпосередньо залежить від повноти фонетичного алфавіту системи. Для кожного звуку спочатку будується складна статистична модель, яка описує проголошення цього звуку в мові. Система розпізнавання зіставляє входить мовної сигнал з фонемами, а вже з них збирає слова. Наприклад, фонетичний алфавіт Яндекса складається з 4000 елементарних одиниць, які включають фонеми, їх частини та поєднання. Кожен фрейм зіставляється не з однією фонемой, а з кількома, придатними з різним ступенем ймовірності. Крім того, система враховує ймовірності переходів, тобто визначає, які фрейми можуть йти слідом за конкретної фонем. Для цього застосовуються дані про вимові, морфології і семантики. Таким чином система підбирає варіанти слів, які потім аналізує на форми, частини мови та можливі статистичні зв'язки між ними.

Далі в процес вступає мовна модель, за допомогою якої система визначає ймовірний порядок слів і при необхідності відновлює нерозпізнані слова за змістом, виходячи з контексту і наявної статистики.
Далі в процес вступає мовна модель, за допомогою якої система визначає ймовірний порядок слів і при необхідності відновлює нерозпізнані слова за змістом, виходячи з контексту і наявної статистики
В результаті отримана інформація надходить в основний блок системи розпізнавання - декодер. Цей програмний компонент поєднує дані від акустичних і мовних моделей і на підставі їх об'єднання видає кінцевий результат у вигляді найбільш імовірною послідовності слів.

Завдяки машинного навчання системи стійкі до шуму і вміють розпізнавати мову з акцентом. Точність сучасних систем розпізнавання мови перевищує 90 відсотків.