Мовне введення як альтернатива клавіатурного

  1. Dragon NaturallySpeaking 7 Essentials
  2. ViaVoice Standard Edition V10
  3. Горинич ПРОФ 3.0
  4. Системні вимоги
  5. Робота з програмою
  6. Налаштування мікрофона
  7. режим команд
  8. режим діктування

Андрій Жданов, Олександр Прохоров

Dragon NaturallySpeaking 7 Essentials

ViaVoice Standard Edition V10

Горинич ПРОФ 3.0

Системні вимоги

Робота з програмою

Налаштування мікрофона

режим команд

режим диктування

Розробник нової операційної системи виходить на трибуну і, потрясаючи ноутбуком, каже:
«Перед вами перша ОС, яка повністю управляється з голосу!»
Уражена аудиторія витримує довгу паузу, і раптом з гальорки доносяться слова:
«Format C, двокрапка, Enter».
сучасний анекдот

появою комп'ютерів перед людиною постала ціла низка нових проблем, пов'язаних з передачею і зберіганням інформації появою комп'ютерів перед людиною постала ціла низка нових проблем, пов'язаних з передачею і зберіганням інформації. Введення даних завжди вимагав значних витрат часу і сил, а прагнення звести ці витрати до мінімуму змушує постійно працювати над способами перекладу знакової системи, якою користується людина, на ту мову, яка зрозуміла машині. Перфокарти, а потім клавіатура не до кінця вирішили цю проблему, так як ці способи передачі інформації не є природними для людини, а тому вони неефективні, неекономічні і, крім того, вимагають тривалого освоєння.

При сучасних масштабах поширення ПК працювати з ними доводиться не тільки фахівцям, які володіють швидким набором з клавіатури, а й малопідготовлені користувачам, для яких введення інформації виливається в окрему проблему. Будь-який попрацював з сучасним графічним пакетом погодиться, що близько десятка рухів мишею при створенні будь-якого ефекту часом можна замінити одним словом. Таким чином, завдання полягає в тому, щоб навчити комп'ютер розуміти без посередника ту мову, якою розмовляють люди між собою, тобто придумати алгоритм розпізнавання звукового образу.

На рівні письмового тексту зазначена проблема вже частково вирішена: такі програми, як FineReader або CuneiForm, дозволяють вводити через сканер будь надрукований текст. Однак в даному випадку ми маємо справу з уже готовим текстом, а введення інформації в процесі його створення представляє певну складність. Поки людина не навчиться телепатично передавати свої думки, єдиним інструментом, службовцем йому для цього, є мова, і тому кожному користувачеві ПК дуже хотілося б, щоб його помічник чув, а головне, розумів свого господаря.

На перший погляд все дуже просто: якщо друкований текст розпізнається, то і мова теж можна розпізнати, адже комп'ютера все одно, що обробляти - звук або малюнок. Здавалося б, треба тільки розділити отримане зображення або звуковий потік на повторювані стандартні образи, зіставити їх з використовуваними нами знаками і дати їм певні числові значення, за якими їх буде дізнаватися машина. Все б так і було, якби друкований текст і мова були дійсно аналогічними методами передачі інформації, але в дійсності вони дуже несхожі, і справа тут зовсім не в типі носія інформації. Людську мову швидше можна порівняти з рукописним текстом, який, як і людська мова, дуже залежить від індивідуальних характеристик кожної людини. Почерк і тембр голосу унікальні і практично неповторні, і ці непередбачувані в кожному випадку параметри серйозно ускладнюють вичленення і систематизацію знакових образів.

Незважаючи на перераховані труднощі, системи розпізнавання мови вдосконалюються досить швидко і поступово починають конкурувати з клавіатурним введенням. При цьому необхідно підкреслити, що поки комп'ютер ще дуже далекий від людини, вловлює інтонації і настрій співрозмовника.

Зазвичай людина, вперше почувши про технології розпізнавання мови, вважає, що для надіктовиванія тексту системі, яка розпізнає мову, не потрібно особливих навичок, проте це не так. На відміну від клавіатурного, мовне введення крім основної інформації несе і дані про поле мовця, про його вік, стан здоров'я, настрої, ставлення до інформації, що передається, а також багато інших додаткових відомостей. Для розпізнавання мови абсолютна більшість цих даних - не допомога, а перешкода, тобто як для розмови по телефону, так і для надіктовиванія тексту системі розпізнавання від людини вимагається так чи інакше пристосовувати мова до цих пристроїв.

Сьогодні нам здається, що для того, щоб ефективно користуватися телефоном, не потрібні ніякі навички. Це пов'язано з тим, що навчання відбувається поволі: з раннього віку діти спостерігають, як дорослі розмовляють по телефону, і непомітно для себе набувають певні вміння. На підтвердження цього наведемо невелику цитату з «Поштово-телеграфного журналу» за 1902 рік:

«Людина, рідко вдається до посередництвом телефону, буде говорити або занадто голосно, або занадто тихо, і лише після деякого досвіду можна навчитися пристосувати свою промову таким чином, щоб вона виразно передавалася телефоном. При цьому, однак, не байдуже, якою мовою відбувається розмова, тому що деякі мови до цього більш придатні, ніж інші. Така відмінність особливо ясно позначилося з часу відкриття телефонного сполучення між Німеччиною і Францією. Найбільш незручним з європейських мов для телефонної передачі виявляється англійську мову, що буяє шиплячими звуками і представляє при телефонування великі труднощі, так як їх дуже легко змішати зі звичайним заважає шумом в апаратах ».

Отже, мовне введення інформації пред'являє наступні вимоги:

• говорити слід не дуже голосно і не дуже тихо. Найкраще - звичайним спокійним голосом. Підвищені інтонації несуть багато побічних даних, внаслідок чого відсоток розпізнавання падає;

• вимовляти слова потрібно монотонно, але чітко. Чи не повинні проковтуватися закінчення, так як на відміну від людини комп'ютер поки не може стежити за контекстом і додумувати закінчення;

• чим менше сторонніх шумів, тим краще;

• треба намагатися підтримувати постійну відстань до мікрофона;

• в мікрофон не повинно потрапляти придих, тому мікрофон потрібно тримати не прямо навпроти рота, а приблизно на сантиметр вправо і на сантиметр нижче.

Погане апаратне забезпечення теж є джерелом проблем для розпізнавання мови, тому якісний мікрофон і хороша звукова плата з вбудованим фільтром шумів можуть значно поліпшити роботу системи розпізнавання мови. Але коли всі труднощі вирішені, перед користувачем програми розпізнавання усної мови відкриваються абсолютно нові можливості. По-перше, швидкість введення будь-якого тексту збільшується в кілька разів у порівнянні з введенням з клавіатури; при цьому витрати необхідних зусиль зменшуються, а навчання взагалі не потрібно, так як говорити ми все вміємо. По-друге, така програма дозволяє управляти іншими додатками і операційною системою в цілому за допомогою голосових команд, що дуже полегшує і прискорює роботу за комп'ютером.

Можливості голосового управління відкривають перед користувачами величезні перспективи. Якщо врахувати, що сьогодні в багатьох офісах комп'ютер управляє принтером, модемом, факсом, а з появою DVD стало можливо підключати до домашнього комп'ютера аудіоцентр і домашні кінотеатри, то можна собі уявити таку картину з нашого недалекого майбутнього. Ви сидите на м'якому дивані і говорите: «Телевізор», потім - «МузТВ» - включається ланцюжок «мікрофон - звукова карта - комп'ютер - телевізор», і ви бачите на екрані телевізора свій улюблений кліп. Або ви вимовляєте: «Надіслати факс», «номер ...», диктуєте текст повідомлення, потім - «Готово», і через кілька секунд почуєте у відповідь: «Факс відправлений». І все це цілком реально і може бути здійснено. Тепер додайте до цього можливість голосової навігації по Інтернету, розпізнавання голосу, записаного на будь-який аудіоносій або в звуковий файл. Загалом, пора вже нарешті задуматися про придбання системи розпізнавання усної мови, адже не за горами той день, коли вам треба буде тільки вимовити слово!

Перші програми, що забезпечують голосове введення даних, були розроблені за кордоном раніше вітчизняних. Найпопулярнішими сьогодні з англомовних є Scansoft Dragon Naturally Speaking і IBM ViaVoice, а з вітчизняних розробок найбільшого поширення набула програма «Горинич».

Dragon NaturallySpeaking 7 Essentials

Розробник: Scansoft

Ціна: 59,99 дол.

Dragon NaturallySpeaking 7 Essentials - найбільш точна система розпізнавання мовного введення, що отримала більше 160 нагород за точність розпізнавання мови і простоту використання. Програма дозволяє диктувати текст безперервно зі швидкістю приблизно 160 слів за хвилину. Dragon NaturallySpeaking повністю інтегрована в Microsoft Internet Explorer і AOL, а також дозволяє диктувати текст в більшість Windows-додатків.

Dragon NaturallySpeaking повністю інтегрована в Microsoft Internet Explorer і AOL, а також дозволяє диктувати текст в більшість Windows-додатків

Крім того, програма дозволяє автоматично додавати терміни і імена контактних осіб за рахунок сканування документів користувача ПК і його електронної пошти, так що користувачеві не доведеться вводити спеллинг незнайомих імен. Програма дозволяє прискорити рутинні завдання по введенню даних, запускати додатки голосом, посилати e-mail, заповнювати форми та здійснювати навігацію в Web. Все це вже сьогодні приносить значну економію часу і коштів, необхідних для підготовки документів для медичних, юридичних та інших держустанов.

ViaVoice Standard Edition V10

Розробник: IBM

Ціна: 44,99 дол.

Система розпізнавання мови IBM ViaVoice Standard Edition включає режим надіктовиванія і режим подачі голосових команд. У версії Standard Edition підтримуються Windows XP Home / 98 SE / Me.

У версії Standard Edition підтримуються Windows XP Home / 98 SE / Me

Користувачі ViaVoice можуть диктувати текст, редагувати, коригувати та форматувати текст в текстовому процесорі з голосовим уведенням SpeakPad. Текст, надиктував в SpeakPad, можна експортувати в інші текстові редактори. Користувачі можуть також диктувати безпосередньо в Microsoft Word 2002/2000/97.

Крім того, можна додати нові слова, адреси, акроніми та іншу персональну інформацію. Користувачі Standard Edition можуть ініціювати базові команди управління Internet Explorer.

Горинич ПРОФ 3.0

Найпросунутішої вітчизняної програмою є програма «Горинич» від російського розробника VoiceLock. Слід зазначити, що розробка розпізнавання російської мови є досить специфічною завданням. При розпізнаванні мови, усної на нашій рідній мові, виникає цілий ряд труднощів. Ті параметри звуку, які найлегше описати машині, найменш важливі в російській мові: зокрема, довгота звуку, критична в англійській мові, в російській не грає практично ніякої ролі. Дуже гостро стоїть проблема омофонів (слів, які пишуться по-різному, а звучать однаково). Звичайно, і в англійській мові є такі слова, але їх набагато менше, ніж в російській, через редукування голосних, властивого російській фонетиці, і внаслідок розвиненої системи відмін і відмінювання. Скажіть співрозмовнику слово «красива» поза контекстом - невідомо, що він почує: «красива», «красиве» або «красиві»? Те ж саме зі словом «дивиться» - може бути, «дивляться»? А в англійській мові голосні вимовляються чітко, відповідно до не оглушаются, та й закінчень там небагато.

Але на цьому проблеми зовсім не закінчуються. Наша країна підносить розробникам систем розпізнавання російської мови ще один сюрприз - діалекти і говори: необхідно також враховувати відмінності у вимові в різних регіонах Росії. Як правило, подібні проблеми вирішуються за допомогою попереднього налаштування. А технології, розроблені фахівцями фірми VoiceLock, дозволяють налаштовувати програму всього за кілька хвилин.

На момент написання статті в продажу була версія програми «Горинич» 2.0, але готувалася до видання нова версія - «Горинич ПРОФ» 3.0, опис якої ми наводимо нижче.

Слід звернути увагу читачів на те, що подальше опис підготовлено за бета-версії продукту і в комерційній версії картинки і функціонал можуть дещо змінитися.

За інформацією видавця - компанії «Новий Диск» - ця версія повинна з'явитися в продажу вже у вересні цього року.

У новій версії програми значно покращено якість розпізнавання, перероблений інтерфейс, доданий модуль автоматичної настройки мікрофона, полегшена робота зі словниками. Програма використовує оригінальне ядро, повністю засноване на російських розробках. Виведення тексту може проводитися в будь-які текстові редактори. Крім того, є можливість управляти голосом окремими функціями операційних систем Microsoft Windows 98 SE / Mе / 2000 / XP.

Системні вимоги

Установка «Горинич ПРОФ» 3.0 можлива на комп'ютери під управлінням російських версій Microsoft Windows 98 SE / Mе / 2000 / XP. Програма не призначена для роботи з Microsoft Windows 95 і NT. Користувачам Microsoft Windows 2000 і XP в залежності від налаштувань операційної системи для роботи з програмою можуть знадобитися повноваження адміністратора.

Щоб встановити саму програму, достатньо 50 Мбайт вільного дискового простору. Рекомендується ж більше 250 Мбайт, так як при меншому обсязі вільного місця на жорсткому диску робота комп'ютера буде серйозно уповільнена. Для роботи програми необхідний процесор з тактовою частотою не нижче 500 МГц. Оперативної пам'яті повинно бути не менше 64 Мбайт. При збільшенні потужності комп'ютера відповідно зростає і продуктивність програми. На комп'ютері повинна бути встановлена ​​як мінімум 16-розрядна звукова карта, що має мікрофонний вхід. Для більш стійкої роботи підходять звукові карти середнього і вищого рівня: Sound Blaster, Gravis Ultrasound і т.д., однак при належній налаштування можлива робота і на більш дешевих моделях звукових карт.

Мікрофон рекомендується використовувати у вигляді гарнітури типу Voice Direct (навушники + мікрофон) (рис. 1). Така гарнітура забезпечує достатню якість передачі мови і дозволяє мінімізувати вплив сторонніх фонових шумів.

Така гарнітура забезпечує достатню якість передачі мови і дозволяє мінімізувати вплив сторонніх фонових шумів

Мал. 1. При роботі з програмою бажано використовувати гарнітуру типу Voice Direct

Не слід використовувати вбудовані (наприклад, в монітор) і професійні мікрофони, бо вони конструктивно не призначені для розпізнавання мови.

Робота з програмою

У середній частині головного вікна програми (рис. 2) розташована панель з основними кнопками управління: включення і виключення звукозапису, виходу з програми, допомоги, налаштувань, прослуховування попереднього сказаного слова і кнопка включення / вимикання режиму диктування.

2) розташована панель з основними кнопками управління: включення і виключення звукозапису, виходу з програми, допомоги, налаштувань, прослуховування попереднього сказаного слова і кнопка включення / вимикання режиму диктування

Мал. 2. Головне вікно програми

Програма запускається в режимі команд. Якщо потрібно диктувати текст, необхідно натиснути на кнопку включення / вимикання режиму диктування і включити звукозапис. Щоб повернутися в режим команд з режиму диктування, слід повторно натиснути на цю кнопку.

У верхній і нижній частинах головного вікна розташовані два допоміжних вікна моніторингу, призначені для спостереження за сигналом з мікрофона під час проголошення слів. У верхньому вікні сигнал відображається у міру надходження із звукової карти, а в нижнє вікно виводиться графічне відображення сказаного слова.

Налаштування мікрофона

Коректна настройка мікрофона є обов'язковою умовою для нормальної роботи програми

За допомогою «Налаштування мікрофона» налаштовується рівень запису даних. Можна вибрати один з двох варіантів настройки мікрофона - вручну або автоматично.

Під час налаштування вручну необхідно налаштувати нормальний рівень запису, орієнтуючись на візуальне відображення сигналу: якщо в мікрофон нічого не говориться, то монітор записи повинен відображати рівну смугу в середині вікна. Коли ви що-небудь говорите в мікрофон, відображення сигналу при проголошенні ударних голосних має трохи не доходити до верхніх країв вікна моніторингу (рис. 3). Якщо ж спостерігається дуже низький рівень для ударної гласною (рис. 4), то слід говорити голосніше або підвищити рівень запису з мікрофона.

4), то слід говорити голосніше або підвищити рівень запису з мікрофона

Мал. 3. Оптимальний рівень для ударної гласною

Оптимальний рівень для ударної гласною

Мал. 4. Занадто низький рівень для ударної гласною

Необхідно також налаштувати рівень запису, щоб рівень шуму був прийнятним (рис. 5), а при високому рівні шуму (рис. 6) слід зменшити рівень запису з мікрофона і переконатися, що в мікрофон не потрапляє придих і відсутні сторонні шуми.

6) слід зменшити рівень запису з мікрофона і переконатися, що в мікрофон не потрапляє придих і відсутні сторонні шуми

Мал. 5. Прийнятний рівень для шуму

Прийнятний рівень для шуму

Мал. 6. Неприйнятна рівень для шуму

Іноді важко вловити ситуацію: або сигнал тільки близький до країв, або вже перетинає їх, але для таких випадків передбачена автоматична настройка. Один цикл автоматичної настройки складається з двох послідовно проводяться тестів - шуму і сигналу з даними. При тесті шуму програма пропонує дотримуватися тиші (тобто нічого не говорити в мікрофон) для визначення рівня фонового шуму. У тесті сигналу з даними користувачеві пропонується вимовити будь-яку фразу з двох-трьох слів. При успішному завершенні автоматичної настройки видається відповідне повідомлення.

режим команд

У вікно доступних команд (рис. 7) виводиться список слів, які користувач може вимовити в даний момент.

7) виводиться список слів, які користувач може вимовити в даний момент

Мал. 7. Вікно доступних команд

Внаслідок запуску або актівації других програм список доступних команд змінюється. Например, для «Блокнота» є Доступне дію «Меню» (рис. 8). При проголошенні слова «меню» актівується вбудований меню «Блокнота». В результаті список доступних команд знову зміниться: туди додадуться дії, можливі для вбудованого меню «Блокнота», - «Файл», «Правка», «Пошук», «Довідка» (рис. 9). Якщо тепер сказати «Файл», то це буде еквівалентно клацанню мишею на пункті меню «Файл». Відповідно результату зміниться і список доступних дій. Таким же чином список працює і для інших запущених додатків.

Таким же чином список працює і для інших запущених додатків

Мал. 8. Зміна списку команд при виклику нової програми

Зміна списку команд при виклику нової програми

Мал. 9. Зміна списку команд при виклику меню програми

режим діктування

Програма може розпізнавати ті слова, які внесені в її словник. Якщо диктувати слова, відсутні в словнику, то програма підбере найближчим по характеристикам слово зі словника. Подивитися список слів, які внесені в словник, а також змінити його вміст можна за допомогою модуля «Налаштування словників»: слово, найбільш схоже на сказане користувачем, буде виведено в активований для диктування вікно, а інші схожі на сказане слова, будуть виведені в чергу у вікні праворуч.

Для кращого розпізнавання в словнику можна замінити (протренировали) вже знаходяться в ньому слова або налаштувати слово під свою вимову. Якщо не перевищено розмір словника, можна також додати будь-яке слово на свій вибір. Наприклад, на рис. 10 показано, як може бути протренировали слово «зберегти» з командного словника. Спочатку необхідно вказати в списку потрібний словник, а потім натиснути кнопку «Завантажити словник» - в результаті в ліву частину вікна програми в стовпець будуть виведені всі слова з обраного і завантаженого словника.

Мал. 10. Налагодження словників

Тепер подвійним клацанням миші вкажіть в списку слів потрібне, потім натисніть кнопку «Записати слово» і скажіть потрібне слово так, як ви збираєтеся вимовляти його при подальшій роботі з програмою. Успішно записане слово буде виведено на екран (рис. 11).

Мал. 11. Приклад запису нового вимови слова

Для контролю записане слово можна прослухати, і якщо результат вас не влаштовує (наприклад, чути сильний хлопок дверима поблизу), то слово можна записати знову.

КомпьютерПресс 9'2004


Скажіть співрозмовнику слово «красива» поза контекстом - невідомо, що він почує: «красива», «красиве» або «красиві»?
Те ж саме зі словом «дивиться» - може бути, «дивляться»?