Главное Свежее Вакансии Образование
1 001 2 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Как работает RealSpeaker (заблокированная запись на Habrahabr)

Вчера вечером решил написать пост на Хабрахабр, чтобы представиться и коротко рассказать о проекте.  Сам аккаунт зарегистрировал еще в марте: http://habrahabr.ru/users/viktorosetrov/
Публиковался в рубрике "софт". Однако, пост провисел от силы минут 15. Его очень быстро заблокировали по причине:  
  • Хабр - не магазин на диване.
Мой пример, как не нужно делать первую статью. Наверное нужно было больше рассказать технических деталей, нежели подробно сообщить о том: как развивается проект. Кстати пост стал очень быстро взлетать и я успел получить "15 минут славы" и значок: "Отхабренный". Прикрепляю оригинальный пост:

Здравствуйте, дорогие пользователи хабрахабр!

Наконец-то наступил тот день, когда я решил написать первый пост для Вас.

Речь пойдет о том, как возникла идея создания проекта, на какой стадии развития мы находимся сегодня и какие планы стоят перед нами в самое ближайшее будущее. Смотри видео: http://youtu.be/0EizTKJj9oE

b_53abd4d72b3c8.jpg

Идея проекта возникла еще в далеком 2009 году, когда я был еще студентом марийского государственного университета. В свое время я мечтал поступить в главный альма матер страны: московский государственный университет имени Михаила Васильевича Ломоносова. Кто знает, наверняка помнит, что первое время там не принимался единый государственный экзамен и необходимо было сдавать все экзамены лично, используя свои знания и навыки. Для этих целей активно готовился более года. Я разработал программу на год, где разделил методичку абитуриента на временные периоды в течение года по дисциплинам. И по ним активно готовился каждый день. Весь мой день был расписан по минутам. Вставал я в 6 часов 30 минут, ложился в 23 00. Благодаря четкой организованности, мне удалось значительно повысить свой внутренний мир.

b_53abd88be28dc.jpg

Однако этого оказалось недостаточно для поступления. Во время подготовки я обратил внимание на учебники по фонетике, где большое внимание уделяется изучению иностранного языка на основе правильной артикуляции. Артикуляция - это раздел лингвистики, который отвечает за произношения. Я задумался по этой теме и вспомнил про глухих людей, которые развивают в себе навыки чтения по губам. Идея мне показалось оригинальной – я решил заниматься созданием аудио визуальной системы распознавания речи, которая на первом этапе будет позволять человеку преобразовывать речевые данных в текст, а потом воспроизводить их для общения с иностранцами.


Если проследить про это сегодня, то можно услышать про Skype. Microsoft объявила о том, что создает специальный сервис, который позволит в реальном времени общаться с иностранцами за счет синхронизации информация на разных языках. Вот такая была у меня идея для 2009 года.

Затем я занимался этим неформально, проводил исследования по данной тематике, писал научные статьи, выступал на конференциях: сначала на региональных, потом на столичных. Ездил по разному роду слету молодежи, был даже два раза на Селигере.

b_53abd8b03aa03.jpg

Таким образом мне удалось впервые получить денежную сумму 400 тысяч рублей от фонда Бортника. Это сумма расписывалась на 2 года, и я получал денежные средства в размере 15 тысяч рублей в месяц, что для студентов было очень и очень хорошо.


Так же в это время я смог познакомиться с людьми, из этой области, которые мыслили и соображали лучше, чем я. Постепенно стали прорабатывать эту тему и создавать свои собственные решения. Но это было больше научная работа – без всякого намека на бизнес.


В 2011 году закончив с красным дипломом университет, я решил не идти в аспирантуру, а попробовать заниматься этим направлением. Мне хотелось создать компанию. Более того я мечтал об этом.

b_53abd937da6e6.jpg

В конце года переехал в Казань вместе с двумя ребятами из города Йошкар-Ола. Мы стали заниматься подобной тематикой более профессионально. Конечно же, наших навыков и знаний было недостаточно. Но очень сильно компании помогал казанский айти парк, затем мы стали резидентами Сколково, поскольку у проекта были некоторые научные основы.

Однако первая версия технологии появилась только в тринадцатом году. Как это не удивительно, 1 решение было абсолютно не удачным. Постольку поскольку в своей работе основные акценты мы делали на видео обработку, в то время как аудио уделялось внимание лишь в конце.

Таким образом в первом решении человек очень сильно зависел от внешних условий: расстояние от камеры до человека, качество картинки, насколько активно человек движется в кадре. Мы позабыли о самом главном принципе систем распознавания речи – программа должна давать эффект свободы.

b_53abdbacc0f4b.jpg

Затем мы пересмотрели нашу концепцию и примерно в конце октября запустили новую версию продукта. Постепенно именно с этого времени начался рост, который во многом органический. Решение постепенно распространяется, у нас появляются новые пользователи, база данных продукта растет, растет конечно и прибыль, но пока еще никаких серьезных значений получить не удалось, а как бы хотелось.

b_53abdbe1db069.jpg

Таким образом подводя итог: я в этой теме уже достаточно давно, почти пять лет. Компания существует два года. За время работы мы пережили множество этапов. Были периоды, когда нас кстати было более десяти человек; было, когда фактически проектом занималось два человека. Сейчас, основные цели и задачи, продвинуть наши решения на европейские и американские рынки. Поскольку РеалСпикер легко можно адаптировать под любой язык – нужно лишь, сделать локализацию сайта и локализацию приложения.

b_53abdc2e12024.jpg

Предполагается так же доработать технологию, которая находится в сыром виде. Основная идея – это сделать так, чтобы система идентификации могла верифицировать человека из общего шума. Чтобы программа могла подавлять посторонние шумы. К решению этой задачи мы стремимся. И она будет рано или поздно решена.

Спасибо огромное за ваше внимание, отличной недели!

Если будут вопросы, пишите. Буду рад рассказать более подробно.

Всего самого замечательного!

С уважением,

Виктор

«Этот текст был набран с помощью программы RealSpeaker – www.realspeaker.net»








0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Логомашина
Логотипы из Петербурга для всего мира
Роман Горбачёв
мне удалось значительно повысить свой внутренний мир.
Ответить
RealSpeaker
RealSpeaker - машинная расшифровка медиа в текст
Viktor Osetrov
Хотел сказать бэкграунд - но программа ни в какую не хотела распознавать это англоязычное слово.)
Ответить
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.