Лучшие статьи и кейсы стартапов
Включить уведомления
Дадим сигнал, когда появится
что-то суперстоящее.
Спасибо, не надо
Вопросы Проекты Вакансии
RealSpeaker - аудио - видео распознаватель речи www.realspeaker.net
Рекомендуем
Продвинуть свой проект
Лучшие проекты за неделю
31
Эбиа

Эбиа

www.ebia.ru

16
Enlite

Enlite

enlited.ru

16
Amarket

Amarket

amarket.io

13
likearea

likearea

smm.li

12
RockinRobin

RockinRobin

www.rockinrobin.co

11
Perezvoni.com

Perezvoni.com

perezvoni.com

10
Cookiezz

Cookiezz

cookiezz.com.ua

10
Битрикс24

Битрикс24

www.bitrix24.ru

10
MuWID

MuWID

muwid.ru

Показать следующие
Рейтинг проектов
Подписывайтесь на Спарк в Facebook

Как работает RealSpeaker (заблокированная запись на Habrahabr)

856 2 В избранное Сохранено
Авторизуйтесь
Вход с паролем
Вчера вечером решил написать пост на Хабрахабр, чтобы представиться и коротко рассказать о проекте.  Сам аккаунт зарегистрировал еще в марте: http://habrahabr.ru/users/viktorosetrov/
Публиковался в рубрике "софт". Однако, пост провисел от силы минут 15. Его очень быстро заблокировали по причине:  
  • Хабр - не магазин на диване.
Мой пример, как не нужно делать первую статью. Наверное нужно было больше рассказать технических деталей, нежели подробно сообщить о том: как развивается проект. Кстати пост стал очень быстро взлетать и я успел получить "15 минут славы" и значок: "Отхабренный". Прикрепляю оригинальный пост:

Здравствуйте, дорогие пользователи хабрахабр!

Наконец-то наступил тот день, когда я решил написать первый пост для Вас.

Речь пойдет о том, как возникла идея создания проекта, на какой стадии развития мы находимся сегодня и какие планы стоят перед нами в самое ближайшее будущее. Смотри видео: http://youtu.be/0EizTKJj9oE

b_53abd4d72b3c8.jpg

Идея проекта возникла еще в далеком 2009 году, когда я был еще студентом марийского государственного университета. В свое время я мечтал поступить в главный альма матер страны: московский государственный университет имени Михаила Васильевича Ломоносова. Кто знает, наверняка помнит, что первое время там не принимался единый государственный экзамен и необходимо было сдавать все экзамены лично, используя свои знания и навыки. Для этих целей активно готовился более года. Я разработал программу на год, где разделил методичку абитуриента на временные периоды в течение года по дисциплинам. И по ним активно готовился каждый день. Весь мой день был расписан по минутам. Вставал я в 6 часов 30 минут, ложился в 23 00. Благодаря четкой организованности, мне удалось значительно повысить свой внутренний мир.

b_53abd88be28dc.jpg

Однако этого оказалось недостаточно для поступления. Во время подготовки я обратил внимание на учебники по фонетике, где большое внимание уделяется изучению иностранного языка на основе правильной артикуляции. Артикуляция - это раздел лингвистики, который отвечает за произношения. Я задумался по этой теме и вспомнил про глухих людей, которые развивают в себе навыки чтения по губам. Идея мне показалось оригинальной – я решил заниматься созданием аудио визуальной системы распознавания речи, которая на первом этапе будет позволять человеку преобразовывать речевые данных в текст, а потом воспроизводить их для общения с иностранцами.


Если проследить про это сегодня, то можно услышать про Skype. Microsoft объявила о том, что создает специальный сервис, который позволит в реальном времени общаться с иностранцами за счет синхронизации информация на разных языках. Вот такая была у меня идея для 2009 года.

Затем я занимался этим неформально, проводил исследования по данной тематике, писал научные статьи, выступал на конференциях: сначала на региональных, потом на столичных. Ездил по разному роду слету молодежи, был даже два раза на Селигере.

b_53abd8b03aa03.jpg

Таким образом мне удалось впервые получить денежную сумму 400 тысяч рублей от фонда Бортника. Это сумма расписывалась на 2 года, и я получал денежные средства в размере 15 тысяч рублей в месяц, что для студентов было очень и очень хорошо.


Так же в это время я смог познакомиться с людьми, из этой области, которые мыслили и соображали лучше, чем я. Постепенно стали прорабатывать эту тему и создавать свои собственные решения. Но это было больше научная работа – без всякого намека на бизнес.


В 2011 году закончив с красным дипломом университет, я решил не идти в аспирантуру, а попробовать заниматься этим направлением. Мне хотелось создать компанию. Более того я мечтал об этом.

b_53abd937da6e6.jpg

В конце года переехал в Казань вместе с двумя ребятами из города Йошкар-Ола. Мы стали заниматься подобной тематикой более профессионально. Конечно же, наших навыков и знаний было недостаточно. Но очень сильно компании помогал казанский айти парк, затем мы стали резидентами Сколково, поскольку у проекта были некоторые научные основы.

Однако первая версия технологии появилась только в тринадцатом году. Как это не удивительно, 1 решение было абсолютно не удачным. Постольку поскольку в своей работе основные акценты мы делали на видео обработку, в то время как аудио уделялось внимание лишь в конце.

Таким образом в первом решении человек очень сильно зависел от внешних условий: расстояние от камеры до человека, качество картинки, насколько активно человек движется в кадре. Мы позабыли о самом главном принципе систем распознавания речи – программа должна давать эффект свободы.

b_53abdbacc0f4b.jpg

Затем мы пересмотрели нашу концепцию и примерно в конце октября запустили новую версию продукта. Постепенно именно с этого времени начался рост, который во многом органический. Решение постепенно распространяется, у нас появляются новые пользователи, база данных продукта растет, растет конечно и прибыль, но пока еще никаких серьезных значений получить не удалось, а как бы хотелось.

b_53abdbe1db069.jpg

Таким образом подводя итог: я в этой теме уже достаточно давно, почти пять лет. Компания существует два года. За время работы мы пережили множество этапов. Были периоды, когда нас кстати было более десяти человек; было, когда фактически проектом занималось два человека. Сейчас, основные цели и задачи, продвинуть наши решения на европейские и американские рынки. Поскольку РеалСпикер легко можно адаптировать под любой язык – нужно лишь, сделать локализацию сайта и локализацию приложения.

b_53abdc2e12024.jpg

Предполагается так же доработать технологию, которая находится в сыром виде. Основная идея – это сделать так, чтобы система идентификации могла верифицировать человека из общего шума. Чтобы программа могла подавлять посторонние шумы. К решению этой задачи мы стремимся. И она будет рано или поздно решена.

Спасибо огромное за ваше внимание, отличной недели!

Если будут вопросы, пишите. Буду рад рассказать более подробно.

Всего самого замечательного!

С уважением,

Виктор

«Этот текст был набран с помощью программы RealSpeaker – www.realspeaker.net»








0
Добавить в избранное Сохранено
Авторизуйтесь
Вход с паролем
Первые Новые Популярные
Логомашина
Вау! Мы сделали больше всех логотипов в России!
Горбачёв Роман
мне удалось значительно повысить свой внутренний мир.
Ответить
RealSpeaker
RealSpeaker - аудио - видео распознаватель речи www.realspeaker.net
Viktor Osetrov
Хотел сказать бэкграунд - но программа ни в какую не хотела распознавать это англоязычное слово.)
Ответить
Выбрать файл
Читайте далее
Загружаем…
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать