Новости
История и
достижения компании
Философия и
Миссия компании
Руководство компании
Основное направление
деятельности компании
Клиенты
Пресса о нас
Электронная Россия
Вакансии
Массовая обработка форм
Cognitive Business Kit
Электронная торговля
Информационно-
аналитические системы
Прикладные
проектные решения
Дополнительная
информация
Обследование
предприятий
Консалтинг
Проектирование и
разработка решений на
заказ
Адаптация продуктов и
решений
Внедрение продуктов и
решений
Сопровождение продуктов
и решений
Обучение пользователей
Экспертиза решений и
документации
ЕВФРАТ-Документооборот
Cognitive Forms Network
Cognitive Forms Bank
Cognitive Passport
Cognitive Megapolis
Астарта
НИКА-Музей
СДО CT Курс
CuneiForm
CT Каталог
Прайс-лист
Купите там, где вам удобно
Наши партнеры
Техническая поддержка
Зарегистрироваться здесь!
Загрузка программ
Научные работы
сотрудников
Речевые технологии
Машинный перевод текстов
(Machine Translator)
Единый формат файлов
Лингвистические
технологии
Карта сайта Главная страница
 
  О компании Проектные решения Услуги Продукты Научные исследования Контакты

Научные исследования
Научные работы
   сотрудников
Речевые технологии
Машинный перевод текстов
   (Machine Translator)
Единый формат
   файлов
Лингвистические
   технологии

Речевые технологии  
www.cognitive.ru/Научные исследования/Речевые технологии

"Подобной системы нет ни у одной компании в мире
- ни для русского, ни для какого-либо иного языка.
Cognitive Technologies первой в нашей стране создала
гигантскую речевую базу русских слов, которая должна
стать основой будущей технологии распознавания речи."

Все более глубокое проникновение компьютерных технологий во все сферы человеческой деятельности, от производственных до чисто утилитарных, бытовых, обусловливает также развитие внешних интерфейсов и форм взаимодействия человека с компьютером, среди которых на первый план в современных условиях выходит развитие речевого интерфейса - наиболее естественного способа общения человека с компьютером. Решение этой задачи существенным образом повлияет на расширение сферы применения современных компьютерных технологий. При этом уровень развития техники и вычислительных мощностей содержит предпосылки создания подобной системы. Очевидно также, что рассматриваемая задача является одной из наиболее наукоемких, в особенности в части распознавания речи. Однако состояние современной науки в сфере распознавания речи также вселяет уверенность в близком "прорыве" в этой области.

Научно-исследовательские работы в области речевых технологий наша компания ведет с 1993 года. За это время получены значительные теоретические и практические результаты. В 90-х годах мы работали над проблемой распознавания дискретной речи с настройкой на диктора. Параллельно велись работы по созданию дикторонезависимых систем речевого управления с малым словарем и распознаванию слитной речи (для русского языка).

Большое внимание мы уделялось созданию базового инструментария и фундаментальным исследованиям в области обработки речевых сигналов. Нашими учеными разработаны новые методы анализа, сегментации и идентификации речевых сигналов, гибридные алгоритмы идентификации с использованием статистических методов и знаний о тонкой структуре сигнала. Собран и структурирован большой объем тестового и тренировочного речевого материала. С помощью мощного инструментария для работы с речевыми сигналами создано несколько различных речевых баз данных, которые позволяют не только вести исследования, но и решать технические задачи обучения алгоритмов распознавания и синтеза речи.

Первая речевая база данных для русского языка была создана в 1997 году нашим коллективом. Речевой корпус русской речи ISABASE содержит более 5000 предложений, произнесенных 50 дикторами. Фрагменты речи сопровождаются разметкой на лексические и фонетические единицы (слова и фонемы). Речевой материал состоит из двух частей - фонетически сбалансированной и фонетически репрезентативной. Разметка на фонетические единицы проведена в полуавтоматическом режиме путем ручной коррекции экспертами результатов автоматической сегментации сигналов на акустически однородные фрагменты.

Создание первой речевой базы данных русского языка явилось необходимой предпосылкой к развитию систем распознавания русской речи. К концу 90-х годов были разработаны технологии дикторонезависимого распознавания команд ограниченного словаря. В комплексе с системой синтеза речи по тексту эти технологии дают возможность строить диалоговые речевые системы, не требующие настройки на диктора и распознающие в каждом узле диалога определенный для него набор команд. Надежное распознавание ключевых управляющих слов-команд позволяет легко обходить возможные ошибки распознавания с помощью дополнительных элементов диалога.

Для успешного решения основной задачи распознавания речи - создания системы диктовки с неограниченным словарем (называемой еще "речевой пишущей машинкой") - потребуются большие речевые базы данных для настройки (тренировки и тестирования) алгоритмов распознавания. Нами создана технология сбора и обработки данных для порождения речевых корпусов, которая включает:

  • описание системы монофонов русского языка
  • единый формат хранения речевых данных
  • автоматизацию подготовки текстового материала с нужными фонетическими характеристиками
  • автоматизацию пакетной записи дикторов
  • автоматическую верификацию качества записи
  • автоматизированное рабочее место эксперта-транскрибитора

В 2001 году, по заказу Intel Corp., нашим коллективом создан уникальный речевой корпус большого объема RuSpeech. Эта речевая база данных содержит фрагменты непрерывной русской речи, снабженные текстом, фонетической транскрипцией и дополнительной информацией о дикторе и обстоятельствах записи.

Характеристики RuSpeech:

  • 30 CD, более 15 Gb;
  • 50 часов записи непрерывной русской речи;
  • 220 дикторов по 250 предложений в среднем;
  • более 50000 произнесенных предложений;
  • фонетическая разметка (транскрипция) каждого произнесенного предложения;
  • высокая репрезентативность монофонов и их сочетаний;
  • сбалансированное деление корпуса на 3 непересекающиеся части: TRAIN, TEST and DEVELOPMENT.

Среди последних наших разработок в области распознавания речи - система распознавания команд и цифровых последовательностей в слитной речи для применения в телефонии.

Большая научная сложность задачи обусловливает важность сотрудничества разработчиков с учеными, работающими в этой и смежных областях. Традиционно нашими партнерами при разработке речевых технологий являются речевая группа филологического факультета МГУ под руководством проф. Кривновой О.Ф., группа ВЦ РАН под руководством Чучупала В.Я. и другие. Понимая сложность задачи и необходимость консолидации усилий ученых и разработчиков для прорыва в области распознавания речи, наша компания в 2002 году стала одним из соучредителей консорциума "Российские Речевые Технологии", в который вошли все ведущие российские разработчики в этой области.