Распознавание речи и рукописного текста

При распознавании устной речи и рукописного текста на естественных языках возникают проблемы, близкие к проблемам перевода.

То есть, существуют слова, близкие по звучанию, по набору фонем. Например, «шесть» и «шерсть» (рус.), ship and sheep в английском. Человек достаточно легко справляется с различением таких слов за счет понимания контекста, в котором они произнесены, тогда как для компьютерных систем различить такие близкие наборы звуков составляет почти неразрешимую задачу. Следовательно, для распознавание речи нужно не только слышать ее, но еще и понимать о чем идет речь. Человек однозначно воспринимает контекст и «домысливает» нерасслышанные фонемы, в то время как существующие алгоритмы этот контекст просто не учитывают.

Аналогичные проблемы возникают и при распознавании рукописного текста. То есть, вариации в написании символов различными людьми не дают возможности построить однозначное соответствие между рукописным символом и буквой алфавита, что не дает возможности точно построить то или иное слово по его рукописному аналогу.

Сейчас стали очевидны недостатки традиционного подхода распознавания речи, при котором делается попытка найти произнесенное слово (текст) по набору звуков на входе – невозможность точного, 100% понимания машинным интеллектом вводимых команд или неизбежная ограниченность словаря узким набором команд, жесткая заданность алгоритма работы такого интерфейса, большая зависимость от дикторского произношения.

Здесь, как и в задаче перевода, проблема распознавания решается построением выражения алгебры понятий для тех гипотез значений, которые наиболее вероятны для звучаний и написаний распознаваемых слов. (То есть рассматриваются все варианты слов, которые могут быть получены из распознанной информации) . Так как распознавание происходит вместе с предыдущим контекстом, то, при проведении отражения в пространство понятий, сразу можно проверить попадание понятия в область, которая соответствует данному контексту (разрешенную область, см. 4.5), используя механизм алгебры понятий. То есть, если результат описанных в тексте преобразований понятий попадает в определенную область, разрешенную по данному контексту, то и и значение для распознавания будет выбираться именно из этой (результирующей) области., что решит проблему низкого качества распознавания.

Одной из проблем современных систем распознавания является восстановление по распознанным фонемам исходного слова. Это связано с тем, что транскрипция ( произношение) каждого слова не обязательно совпадает с его написанием, например лесница, здача, салома и т.д.

Подход с позиций ТПП дает простое решение данной проблемы. Представляется наиболее целесообразным не искать способы написания того или иного набора фонем, а напрямую осуществлять поиск этого набора в ПП, так же как ищутся и слова с целью определения их координат. То есть, по набору фонем определяются координаты соответствующего понятия (ведь не обязательно в ПП хранить только написанные слова, см. архитектуру БД ПП) и в сочетании с определением разрешенной/запрещенной области выдается решение о том или ином понятии уже в письменном, текстовом (или графическом) виде.

Предлагаемая архитектура построения системы распознавания команд и слов на базе теории пространства понятий и распределенных может бытьпредоставлена по запросу.

SEARCH:

Теория пространства понятий версия 2 (октябрь 2004 г.)


•	Введение
•	История создания
•	Основные положения теории пространства понятий
•	Операции в пространстве понятий
>	Применение теории
•	Построение пространства понятий

Русский


•	О себе
•	Моя семья
•	Теория пространства понятий Первая версия Апрель 2004
>	Теория пространства понятий версия 2 (октябрь 2004 г.)
•	Теория пространства понятий (версия 3, январь-апрель 2005 г.)

You can ask author:

Pls, carefully type your email!

Website from "Summatech"
I'll ready to answer to you: Stanislav Taktaev

Search

Новости/News

Русский

English

Распознавание речи и рукописного текста