РАЗРАБОТКА МЕТОДА ПОЭТАПНО-РАСПРЕДЕЛЁННОГО РАСПОЗНАВАНИЯ РЕЧИ НА ОСНОВЕ МНОГОКАНАЛЬНОГО ПАРАЛЛЕЛЬНОГО КОДИРОВАНИЯ

2.2. Аннотация


Трудно переоценить значение средств, реализующих автоматическое преобразование звучащей русской речи в электронный текстовый документ в реальном масштабе времени. Сфера их применения весьма обширна: системы документооборота, системы анализа и записи звуковой информации, системы голосового управления и т.п. Однако, средства распознания речи широкого распространения не получили, несмотря на наличие коммерчески распространяемых образцов. Во многом это связано с неудовлетворительной для большинства пользователей надежностью распознавания (EER, %) (50-70% «Горыныч» [VoiceLock, White Computers], 30% «Комбат» [White Group] и Dragon Dictate) и сложностью настройки на диктора, при обеспечении отсутствия шумов [У].
По мнению авторов, одна из основных причин недостаточной эффективности, используемых методов распознания речи заключается в том, что задача распознавания решается по сути одним пусть и сложным алгоритмом. Все проблемы, связанные с распознаванием речи, в частности, вариабельность речевого сигнала, в рамках одного голоса и от человека к человеку, наличие шумов, различные условия регистрации голоса, нагружают один алгоритм. Таким образом, рабочий алгоритм с одной стороны должен распознавать тонкие структурные отличия между фонемами, анализируя всевозможное многообразие сигнала, с другой стороны должен быть не чувствителен к вариациям речевого сигнала неинформативного характера. Данного условия в рамках одного алгоритма добиться сложно.
Преодоление указанного противоречия, по мнению авторов, состоит в поэтапном решении задачи распознавания речевого сигнала на основе системного подхода. Каждый этап выполняет функцию, определённую назначением следующего этапа. Иначе, целевая функция этапа выступает критерием оптимизации для предыдущего этапа при их разработке.
Исходя из вышеизложенного, предлагается следующая поэтапная схема распознавания речи. На первом этапе осуществляется необходимая нормализация сигнала: усиление с его автоматической регулировкой, подавление шумов. На втором этапе происходит унификация сигнала в амплитудно-частотном диапазоне, определяемом пороговыми частотными свойствами человеческого уха. Третий этап осуществляет многоканальное параллельное кодирование сигнала на основе оригинального метода в соответствии с набором критических полос базилярной мембраны слухового аппарата человека. На четвёртом этапе каждому кодовому слову сопоставляется звук, при исключении вероятностной оценки. Пятый этап отвечает за формирование слов на основе специального алгоритма совмещающего использование правил языка и иерархически организованной базы данных слов (словарь). На шестом этапе полученный текст предоставляется пользователю.
Для реализации предложенной схемы основными первостепенными задачами являются: сквозное математическое моделирование поэтапной обработки сигнала для выявления необходимых и достаточных условий преобразований, а также подробная разработка третьего и пятового этапов. У авторов есть наработки в области выявления характерных признаков сигналов и в области работы с базами данных. Проведённые авторами опыты по обработке речевых сигналов для выявления их характерных фонетических признаков дают им надежду на преодоление сложности русской речи, ограниченности словарей, вариабельности голоса и других препятствий при продолжении и развитии исследований.
 

2.3. Основное содержание исследования:

 2.3.1 Масштабность заявленной научной проблемы.

 

Проект относится к приоритетному направлению развития науки 2. Информационно-телекоммуникационные технологии и электроника, к критической технологии 15. Технологии обработки, хранения, передачи и защиты информации (в соответствии со списком приоритетных направлений развития науки, технологий и техники в Российской Федерации и перечнем критических технологий Российской Федерации от 21.05.2006).
Создание надёжного, эффективного и относительно недорогого средства для распознавания речи само по себе имеет большое значение для экономики России.
В ходе проекта планируется разработка метода оценки структуры сигнала на основе многоканального параллельного кодирования, насколько известно авторам не применявшегося для распознавания речевых сигналов. Данный метод в отличие от методов, использующих кэпстральный анализ или Скрытые Марковские Модели, опирается на распределённое по каналам определение характерных признаков. Развитие предлагаемого метода позволит применять его в других областях, связанных с выявлением информационных признаков.
Важной научно-технической задачей является разработка метода проведения сквозного математического моделирования поэтапной обработки сигнала, включая аналоговые и цифровые цепи первичной обработки, а также этапы программно-алгоритмической вторичной обработки. Это особенно актуально для выявления необходимых и достаточных условий преобразований при проектировании программно-аппаратных средств контроля и управления.

2.3.2. Степень новизны заявленной научной проблемы

(необходимо описать, каким образом проект опирается на предыдущую деятельность или проекты, которые планируется осуществить или которые уже были реализованы в выбранной стратегической области).
Разрабатываемый проект опирается с одной стороны на опыт работы авторов в областях смежных с исследуемой областью, с другой стороны на результаты исследований, проведённых авторами за 2006-2007 годы.
В течение 2006-2007 годов авторами были проведена адаптация методики многоканального параллельного кодирования для распознавания речи и начаты исследования возможности использования данной методики для выявления фонем из слитной русской речи. Результаты, полученные с использованием тестовых записей обнадёживающие: однозначно характерный код для фонемы появлялся в более чем 90 процентах случаев (для шести каналов).
Известно, что в русском языке насчитывается 42 основные и 3 неопределенные фонемы. С другой стороны для базилярной мембраны человеческого уха в частотном диапазоне от 0 до16 кГц опытным путём были определены 24 критические полосы (их также называют полосами равной разборчивости) с шириной от 100 Гц до 3,5 кГц. На данной основе будет оптимизирована методика параллельного многоканального кодирования.

2.3.3.Ожидаемые результаты проекта:


По мнению авторов, принципиально важным для развития информационных и компьютерных технологий является разработка метода проведения сквозного поэтапного математического моделирования обработки сигнала, для выявления необходимых и достаточных условий преобразований, как на этапах первичной (аналоговой и цифровой), так и на этапах вторичной обработки сигнала.
Важным результатом проекта для развития направления распознавания речи должна стать разработка метода поэтапно-распределённого распознавания русской слитной речи. Частными результатами, полезными для данного направления науки могут стать оптимизация методики параллельного многоканального кодирования для решения задачи распознавания широкополосных сигналов, а также создание баз данных адаптированных под задачи распознавания характерных признаков сигнала.

2.3.4. Научно-методическая основа проекта.


Для реализации заявленного проекта необходима интеграция усилий специалистов нескольких научных и технических профилей, так как решаемые задачи варьируются от строго теоретических, до сугубо прикладных. Коллектив авторов обеспечивает решение поставленных задач по основным направлениям проекта. При разработке метода сквозного поэтапного математического моделирования обработки сигнала планируется привлечение как уже известных моделей сигналов и узлов, так и разработка новых. Для этой цели в качестве основных инструментов моделирования будут использованы пакет MatLab 7 и программа схемотехнического моделирования Micro-Cap 8. Эти же средства будут привлечены для разработки метода поэтапно-распределённого распознавания русской слитной речи. Для оптимизации методики параллельного многоканального кодирования для анализа её результатов планируется применить кластерный анализ. Создание баз данных адаптированных под задачи распознавания характерных признаков сигнала будет осуществляться на основе использования MS SQL 2005.
Научное обоснование применения предлагаемого метода для распознавания слитной русской речи потребует накопления фактического материала по результатам её использования, что потребует проведения множества опытов. Кроме того необходимо определить функциональные ограничения системы в связи с неоднозначностью слов и словосочетаний (“он же ребенок”, “он жеребенок”).

2.4. Дальнейшее развитие проекта:


Продолжением работ по разработке метода сквозного поэтапного моделирования преобразований сигнала видится обобщение данного метода на иные задачи поэтапной обработки сигнала. Также планируется расширить область использование методики параллельного многоканального кодирования на другие задачи распознавания сигналов и возможно их идентификации.
В результате реализации проекта ожидается вплотную подойти к программно-аппаратной реализации надёжного и эффективного средства для распознавания слитной русской речи. Следующим шагом должно стать его воплощение в виде законченного продукта и проведение необходимых опытов для его тестирования и отладки. Последним этапом развития проекта должен стать образец средства распознавания речи пригодный для коммерческой реализации.

 

 На первую страницу

    

Hosted by uCoz