Существуют два типа программ распознавания речи:
1. привязанные к говорящему – эти программы постоянно обучаются и со временем начинают понимать голос «своего хозяина» все лучше и лучше. Чем чаще пользователь работает в программе, тем лучше она понимает его. К счастью, обучение происходит довольно быстро – примерно через 20 минут программа научится неплохо понимать вас.
2. независимые от говорящего – вы можете начинать говорить сразу – программа будет реагировать на голосовые команды. В отличие от первого типа, этим программам не нужно учиться понимать вас. Наоборот, вам надо научиться говорить так, чтобы программа вас понимала.
Для чего на ПК используют программу распознавания речи?
Не думайте, что если вы поставите программу распознавания речи, то вам больше не понадобятся клавиатура и мышь, однако работа на ПК существенно облегчится.
1. Диктовка – с помощью программ распознавания речи многие пользователи надиктовывают тексты документов. Такая возможность актуальна, например, для медиков, проводящих обследование (в ходе которого руки обычно заняты) и одновременно протоколирующих его результаты. Для обычного пользователя, которому набивать текст по какой-либо причине сложно (или просто лень) она также может оказаться полезной.
2. Ввод команд – пользователи ПК могут использовать «распознавалку» для ввода команд, то есть проговариваемое слово будет восприниматься системой как щелчок клавиши мыши. Пользователь командует: «Открыть файл», «Отправить почту» или «Новое окно», а компьютер выполняет соответствующие действия. Это особенно актуально для людей с ограниченными физическими возможностями – вместо мыши и клавиатуры они смогут управлять компьютером при помощи голоса.
Что потребуется для распознавания речи?
1. Программа распознавания речи – англоязычные пользователи Windows могут воспользоваться, например, Dragon Naturally Speaking или IBM Via Voice. Русский язык понимают программы «Горыныч» и «Диктограф». В операционную систему Windows Vista программа распознавания речи уже встроена.
2. Микрофон или гарнитура (гибрид наушника и микрофона) – для «попадания» слов в компьютер.
3. Достаточно производительный компьютер – для работы функции распознавания речи компьютер не должен быть сверхбыстрым. Вполне достаточно 1 Гб оперативной памяти (для работы Windows Vista лучше иметь 2 Гб) и тактовой частоты процессора не менее 1 ГГц.
В каких устройствах используется функция распознавания речи?
Функция распознавания речи может использоваться не только в ПК, но и во многих других устройствах. Это особенно актуально, если у «гаджета» компактная клавиатура с малюсенькими клавишами (или вовсе ее нет).
1. Мобильные телефоны – уже несколько лет существуют модели с возможностью голосового управления. Но к распознаванию голоса это отношения не имеет – аппарат не переводит голос в текст, а сравнивает произнесенную фразу с заранее записанной (последняя является «эталонной» и обычно называется «голосовой меткой»). Голосовая метка может соответствовать записи в адресной книге (голосовой набор) или пункту меню (голосовое управление). Если телефон изначально не имеет соответствующих функций, «обучить» его будет невозможно.
2. Мобильные навигаторы – в новых навигационных устройствах, например, Tom Tom Go 720T водитель может голосом ввести пункт назначения. Если произносить слова отчетливо и, по возможности, в тишине, то эта функция работает очень хорошо. Хотя данная операция занимает столько же времени, сколько и клавиатурный ввод, но во время движения в любом случае более безопасно и удобно использовать голосовое управление. Правда, совсем без рук здесь не обойтись – для запуска голосовой команды нужно нажать на экранную кнопку.
3. Автомобили – некоторыми новыми марками автомобилей, например, Mercedes, Audi, Toyota, Ford или BMW, можно управлять при помощи голоса (правда, набор команд ограничен). Например, в некоторых моделях BMW после нажатия кнопки, расположенной на руле (см. рисунок), активируются функции голосового управления стереосистемой или системой навигации.
4. Мультимедийные диски для изучения иностранных языков – некоторые обучающие программы проверяют правильность произношения. Программа просит вас прочитать определенное предложение и, обработав с помощью функции распознавания речи результат, сообщает, все ли у вас в порядке с произношением.
Какие проблемы возникают при работе с программами-«распознавалками»?
Управление устройствами или диктовка текстов выполняются достаточно хорошо, но, к сожалению, не идеально. И вызвано это рядом причин:
1. Слова не всегда звучат одинаково – самая большая трудность при распознавании речи заключается в том, что ни один человек не произнесет одно и то же слово одинаково, даже если очень постарается.
2. Все люди говорят по-разному – поэтому программа распознавания речи будет функционировать более четко, если новый пользователь сначала немного «потренирует» ее. Правда, это не всегда возможно, а иногда даже и не нужно, например, при использовании программ, не привязанных к собеседнику. Многие программы распознавания речи умеют настраиваться на нового пользователя автоматически.
3. Фоновые шумы могут существенно искажать звучание произносимого слова. Это в значительной степени ограничивает функции распознавания речи, а в многолюдных или зашумленных местах и вовсе делает его невозможным.
4. Быстрая речь – некоторые пользователи говорят очень быстро – слова практически сливаются. Собеседник легко поймет такую речь, однако программе такая задача окажется «не по зубам».
5. Слова с одинаковым (или очень похожим) звучанием – особенно тяжело приходится программам распознавания речи с так называемыми омофонами – словами, которые произносятся практически одинаково, а пишутся по-разному («лез» и «лес», «рот» и «род»). Значение таких слов программа должна определять по контексту предложения.
Каковы перспективы функции распознавания речи?
В мобильных телефонах роль функции распознавания речи существенно возрастет, ведь набивать текст на маленьких клавиатурах мобильных телефонов весьма утомительно.
1. Диктовка SMS-сообщений – скоро вам не понадобится набирать текст сообщений на телефоне – можно будет просто диктовать. Эту функцию обещает внедрить в некоторые модели своих телефонов фирма Samsung (в ближайшее время они должны появиться на рынке).
2. Перевод – ко времени проведения Олимпийских игр–2008 в Пекине ожидается появление мобильного телефона со встроенным переводчиком. Если вы, находясь в Поднебесной, захотите, к примеру, отобедать в ресторане, то вам достаточно будет по-русски наговорить свой заказ в мобильный телефон – все будет переведено на китайский язык, а электронный голос из динамика передаст заказ официанту.
Можно предположить, что со временем все большее количество устройств будет понимать человеческий голос. Поэтому не удивляйтесь, если однажды утром ваша кофе-машина не только спросит вас, что приготовить – капуччино или эспрессо – но и поймет ваш ответ.
Распознавание речи в Windows Vista
В Windows Vista имеется программа распознавания речи. К сожалению, этот компонент понимает только английскую, немецкую, французскую, испанскую, японскую и китайскую речь. При первом запуске компонента (в Control Panel нужно выбрать пункты Ease of Access и Speech Recognition) открывается окно мастера обучения, который целых полчаса будет знакомить вас с принципами работы голосового управления Windows. Выполнив несколько упражнений, вы научитесь диктовать и управлять Windows с помощью голосовых команд. Поскольку программа распознавания речи является зависимой от говорящего, она будет одновременно изучать ваш голос. После успешного освоения вводной части Windows отреагирует на ваш призыв: «Слушать!» и начнет принимать голосовые команды. Недостаток: голосовой ввод функционирует только для программ Microsoft (например, для самой Windows, Word или Internet Explorer). При использовании других программ (например, Open Office или Firefox) компьютер будет «глух».
Список литературы
Другие работы по теме:
Часть речи
Грамматическая категория частей речи находит свое выражение в противопоставлении грамматических классов слов, которые различаются своим общим категориальным грамматическим значением.
Речевое общение
Для того чтобы было возможно , передача в речи чего-либо, нужно, чтобы передаваемое было названо, т. е. выражено в системе звуковых сигналов, обозначающих для всех членов коллектива одно и то же, т. е. понимаемых всеми одинаково, необходимо существование языка, общего для всех членов общества. Именно язык, являясь средством, орудием общения людей между собой, и составляет необходимое условие человеческой речи: если бы не существовало языка, речевое общение было бы невозможно.
Системы управления электронными документами
А.Чередов, Cognitive Technologies Тезисы доклада Для эффективного доступа к информации и ее использования в современном офисе все чаще используют Системы Управления Электронными Документам (СУЭД). На их базе решаются задачи электронного делопроизводства и документооборота. СУЭД опираются на технологии электронного архивирования документов включающие ввод, создание, хранение и поиск информации в Электронном архиве документов.
Фирменные наименования
Фирменное наименование указывает на предприятие без какой-либо ссылки на поставляемые им на рынок товары или услуги и характеризует репутацию и положение предприятия в целом.
на тему N
Позволяют вводить тексты со скоростью от 600 до 1000 знаков в минуту. При этом возможна корректировка введеной информации. Программы распознования речи нашли свое применение и в области телефонии, что позволило мне наиболее ярко описать принцип их работы, устройства и т д
Тема Кол-во страниц
Обучение диалогической речи на уроках иностранного языка в старших классах средней школы
Распознавание речи
По мере развития компьютерных систем становится все более очевидным, что использование этих систем намного расширится, если станет возможным использование человеческой речи при работе непосредственно с компьютером.
Зачем нужно тире
Есть речь устная и письменная. Устная речь отличается от письменной. То, что в устной речи можно передать с помощью интонации, мимики, жестов, в письменной речи передается с помощью порядка слов, знаков препинания.
Польско-прусский договор 1790
Союз Польско-Литовский и Прусский был подписан 29 марта 1790 года в Варшаве между представителями Речи Посполитой и Пруссии. Пруссия старалась воспользоваться войнами Российской империи с Османский Империей и Швецией и распространить свое влияние на ослабленную Речь Посполитую. Некоторые круги Речи Посполитой также рассматривали возможность освободиться от десятилетий Российской зависимости.[1]
Рейтан, Тадеуш
Ян Матейко «Рейтан — упадок Польши» (1866) Таде́уш Рейтан (белор. Тадэвуш Рэйтан, польск. Tadeusz Rejtan, Tadeusz Reytan; 20 августа 1742 — 8 августа 1780) — участник Барской конфедерации, депутат Сейма Речи Посполитой от Новогрудского воеводства ВКЛ. Происходил из дворянского рода немецкого происхождения, осевшего в ВКЛ в XVII веке.
Тарнопольское воеводство
Введение 1 География 2 Население 3 Климат 4 Административное деление Введение Тарнопольское воеводство (польск. Wojewуdztwo Tarnopolskie) — воеводство во Второй Речи Посполитой, существовавшее с 1920 по 1939 год.
Йелинек, Фредерик
Фредерик Йелинек (Frederick Jelinek, 18 ноября 1932, Кладно — 14 сентября 2010) — учёный в области теории вычислительных систем, один из пионеров обработки естественного языка и автоматического распознавания речи. Родился в городе Кладно (Чехословакия). С 1959 по 1962 год преподавал в своём альма-матер — Массачусетском технологическом институте.
Королевство Польское 1025 1385
Королевство Польское (польск. Krуlestwo Polskie) — польское государство с 1025 по 1795 год. После Люблинской унии 1569 года стало частью Речи Посполитой. Началом Королевства Польского принято считать принятие королевского титула Болеславом I Храбрым, а концом — отречение от престола короля Станислава Августа Понятовского в результате третьего раздела Речи Посполитой.
Тарногродская конфедерация
Тарногродская конфедерация (польск. Konfederacja Tarnogrуdzka, организована 26 ноября 1715 года в г. Тарногруд, откуда и название) — конфедерация в Речи Посполитой, созданная для лоббирования сословных интересов шляхты и магнатов, недовольных абсолютистскими тенденциями короля Августа II Сильного, немца по происхождению.
Восстание Жмайло
1625 г. — казацко-крестьянское восстание на Украине под руководством Марка Жмайло против политического, экономического и религиозного гнёта Речи Посполитой.
Свалка истории
- фигура речи, обозначающее место, куда перемещаются люди, события, идеологии и т.п. будучи преданные забвению в истории. Считается, что первым употребил это выражение Лев Троцкий в обращении к меньшевикам, покинувшим Второй Съезд Советов 25 октября 1917 года.
Речь Посполитая Трёх Народов
Введение 1 Гадячская уния Список литературы Введение Речь Посполитая Трёх Народов (польск. Rzeczpospolita Trojga Narodуw) — политический проект превращения конфедерации Польского Королевства и Великого княжества Литовского (т. е. Речи Посполитой Двух Народов) в триединое государство (Речь Посполитую Трёх Народов), в результате создания на украинских землях Великого княжества Русского из земель Королевства Польского.
Основы программирования и алгоритмизации
Методика создания программы, которая выбирает лучшей результат и выводит его на экран с сообщением, что это лучшей результат. Анализ процедуры распознавания простых чисел. Алгоритм и текст программы, переписывающей компоненты файла в обратном порядке.
Распознавание речи в Office XP
В версию Microsoft Office XP корпорация впервые включила модуль под названием “Альтернативный ввод”, предусматривающий ввод речевой информации и рукописных текстов.
Теория компьютерной графики
1 ОСНОВЫ КОМПЬЮТЕРНОЙ ГРАФИКИ ОСНОВНЫЕ ПОНЯТИЯ Самая важная функция компьютера – обработка информации. Особо можно выделить обработку информации, связанную с изображениями. Она разделяется на три основных направления: обработка изображений, распознавание изображений и компьютерная графика (КГ).
Двоичное кодирование звуковой информации
С начала 90-х годов персональные компьютеры получили возможность работать со звуковой информацией. Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию. С помощью специальных программных средств (редакторов аудиофайлов) открываются широкие возможности по созданию, редактированию и прослушиванию звуковых файлов.
Технология MMX
О технологии MMX(tm) Технология MMX(tm): более высокая производительность при выполнении мультимедийных и коммуникационных приложений Технология MMX является
Языковая норма 3
Понятие культуры речи тесно связано с литературным языком. Умение четко и ясно выражать свои мысли, говорить грамотно, умение не только привлечь внимание своей речью, но и воздействовать на слушателей, владение культурой речи – своеобразная характеристика профессиональной пригодности для людей самых различных профессий: дипломатов, юристов, политиков, преподавателей школ и вузов, работников радио и телевидения, менеджеров, журналистов.
Изучение времен английского глагола
Text Text Graphics Изучение времен английского глагола Настоящее простое Настоящее продолженное Graphics Цели урока Продолжить работу по формированию грамматических навыков. Тренировать учащихся в умении использовать в речи Present Simple, Present Progressive. Активизировать изученную лексику.
Опыт разработки модели распознавания русской речи со сверхбольшим словарем
В статье описывается процесс создания статистических моделей русского языка для систем распознавания слитной речи. Модели языка были созданы по текстовому корпусу, сформированному из новостных лент ряда интернет-сайтов электронных газет, была проведена автоматическая статистическая обработка текстового корпуса.
Информационные прогнозно-геологические антиномии
Исходя из того, что любой признак рудного объекта является его отражающим знаком и содержит о нем количество информации, для оценки информативности признаков предлагалось использовать математический аппарат традиционной теории информации.
Коллективные амебы и иммунология
Диктиостелиум (Dictyostelium discoideum) – слизевик, обитающий в лесной подстилке, – занимает пограничное положение между одно- и многоклеточными. Его относят к слизевым грибам, поскольку он рассеивает по ветру споры из плодового тела.
Хаунсфилд Годфри
Хаунсфилд Годфри Ньюболд (Hounsfield, Sir Godfrey Newbold) (р. 28 августа 1919, Ньюарк, Великобритания), английский инженер-физик. Создал (1969) компьютерный рентгеновский томограф для сканирования внутренних органов (ЭМИ-сканер).