Россияне учат iPhone записывать SMS с голоса |
|
Здравствуйте, гость ( Вход | Регистрация )
Россияне учат iPhone записывать SMS с голоса |
28.3.2011, 18:17
Сообщение
#1
|
|
Лейтенант Группа: Пользователи Сообщений: 11648 Регистрация: 7.11.2017 Пользователь №: 20887 |
До конца 2011 г. на рынок выйдет первое приложение класса "диктовочный блокнот", предназначенное для преобразования надиктованной русской речи в текст. Об этом рассказал CNews директор питерского "Центра речевых технологий" Михаил Хитров. Приложение будет выпущено для нескольких мобильных платформ, включая и iOS. Сама система для распознавания русской слитной речи "Руссограф" была создана в...
Читать статью на CNews |
|
|
28.3.2011, 18:17
Сообщение
#2
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
Цитата Сейчас в мире существуют только два математических ядра для работы со слитной русской речью, одно из которых принадлежит разработчикам ЦРТ, а другое — компании из Массачусетса Nuance Communications Ни у тех ни у тех нет кода русского распознавателя. А есть у Intel овской команды ( НН регион) , созданный по аналогии с китайским распознователем. |
|
|
28.3.2011, 21:03
Сообщение
#3
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
До конца 2011 г. на рынок выйдет первое приложение класса "диктовочный блокнот", предназначенное для преобразования надиктованной русской речи в текст. Об этом рассказал CNews директор питерского "Центра речевых технологий" Михаил Хитров. Приложение будет выпущено для нескольких мобильных платформ, включая и iOS. Сама система для распознавания русской слитной речи "Руссограф" была создана в... Читать статью на CNews что за чушь? распознавание есть у российской компании Speereo в т ч и русского языка и в конечных продуктах с 2000 года. И лучший речевой продукт по версии PocketPC&Smartphone magazine неоднократно был продукт Speereo. Причем клоны L&H (корни разработок нюанса, Intel,IBM, google, microsoft) тоже участвовали, но на вторых ролях. От ЦРТ ни одного продукта никто никогда не видел, распознавалка не работает, все серьезные тендеры проигрывают и не суются уже (не зовут). Последний пример -голосовой поиск в яндекс-картах - задача намного проще, а решения нет до сиз пор и не будет уже от ЦРТ. Вечная разработка на госденьги и обещания. Диктовка же SMS вообще никому не нужна. SMS-ки отправляют тогда, когда голос не желателен (урок, транспорт), в противном случае проще позвонить или отправить войсмейл. Короче аффтару незачет. Просто перепечатать пресс-релиз - это непрофессионально... Цитата Сейчас в мире существуют только два математических ядра для работы со слитной русской речью, одно из которых принадлежит разработчикам ЦРТ, а другое — компании из Массачусетса Nuance Communications Ни у тех ни у тех нет кода русского распознавателя. А есть у Intel овской команды ( НН регион) , созданный по аналогии с китайским распознователем. Неправда. Есть у google (все видели но в облаке и коммерчески недоступна) точность ок 92% nuance (в коллцентрах, хреновая и на мобильных платформах еще хреновее) точность ок 85% Speereo (все видели в конечных продуктах и коммерчески доступна и самое высокое качество распознавания в т ч в уличных и автомобильных шумах и работает на мобильных платформах а не только в облаке) точность 99-97% никто не видел или точность ниже 80% Intel (никто не видел и на суперкомпе и опять же коммерчески недоступна) студенческие поделки ABBYY ЦРТ Microsoft IBM и т д Хотите поспорить - ссылки на тестовую машину в студию! |
|
|
28.3.2011, 23:00
Сообщение
#4
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
Вы че, парни, распознавание голоса было круто сдеано у АСУС на ASUS P525 еще в 2006-м году. работало на ура без всяких голосвых тегов.
А сейчас на андроиде (2.2 и выше) - жмешь кнопку и дикутешь голосом хоть смс хоть е-майл, хоть черта лысого программу - все переводится тут же в текст при наличии доступа в инет. АУ, люди, 21-й век!!! |
|
|
28.3.2011, 23:50
Сообщение
#5
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
о чем спорить?
Гугле - облачная статистика, распознает смысл, но ни в коем случае не падежи. спирио - разговорник - перводчик, распознавание - громкое надувательство - пусть распознает мама мыла раму. црт имеет продукты - в Гос Думе стоит их система для 8 стенографисток с педалями - нажимая на педаль стенографистка быстро прокручивает ваву и выбирает себе следующий кусок для стенографии. Программа делит звуковой поток на части, короче говоря. Россия - единственная страна из двадцатки, в которой государство не занимается проблемой распознавания родной речи. Насчет интела вы правы. Это бывшая лаба из Интела. Ныне делает необлачный сервис - работает на десктопе. Фонемные корпуса наполняются, скоро услышите. |
|
|
29.3.2011, 7:51
Сообщение
#6
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
црт имеет продукты - в Гос Думе стоит их система для 8 стенографисток с педалями - нажимая на педаль стенографистка быстро прокручивает ваву и выбирает себе следующий кусок для стенографии. Программа делит звуковой поток на части, короче говоря. Программа делит, но стенографистка (точнее машинистка-оператор) не выбирает. Она получает в наушники произвольный кусок звукозаписи и работает с ним. Сервер вставляет текст в нужное место и выдает ей следующий фрагмент записи - именно в этом весь смысл. В конце концов получается слитная стенограмма. |
|
|
29.3.2011, 9:07
Сообщение
#7
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
црт имеет продукты - в Гос Думе стоит их система для 8 стенографисток с педалями - нажимая на педаль стенографистка быстро прокручивает ваву и выбирает себе следующий кусок для стенографии. Программа делит звуковой поток на части, короче говоря. Программа делит, но стенографистка (точнее машинистка-оператор) не выбирает. Она получает в наушники произвольный кусок звукозаписи и работает с ним. Сервер вставляет текст в нужное место и выдает ей следующий фрагмент записи - именно в этом весь смысл. В конце концов получается слитная стенограмма. согласен, выбирает программа. Но педаль жмет стенографистка) |
|
|
29.3.2011, 9:28
Сообщение
#8
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
Вы че, парни, распознавание голоса было круто сдеано у АСУС на ASUS P525 еще в 2006-м году. работало на ура без всяких голосвых тегов. А сейчас на андроиде (2.2 и выше) - жмешь кнопку и дикутешь голосом хоть смс хоть е-майл, хоть черта лысого программу - все переводится тут же в текст при наличии доступа в инет. АУ, люди, 21-й век!!! Уважаемый "эксперт", матчасть хорошо бы знать, прежде, чем писать. На андроиде - распознавалка Google с исходниками Nuance. На Асусе был Нюанс. Диктовка на 2.2 не работает как диктовка. Это сличение речевого сигнала на стороне сервера. о чем спорить? Гугле - облачная статистика, распознает смысл, но ни в коем случае не падежи. спирио - разговорник - перводчик, распознавание - громкое надувательство - пусть распознает мама мыла раму. црт имеет продукты - в Гос Думе стоит их система для 8 стенографисток с педалями - нажимая на педаль стенографистка быстро прокручивает ваву и выбирает себе следующий кусок для стенографии. Программа делит звуковой поток на части, короче говоря. Россия - единственная страна из двадцатки, в которой государство не занимается проблемой распознавания родной речи. Насчет интела вы правы. Это бывшая лаба из Интела. Ныне делает необлачный сервис - работает на десктопе. Фонемные корпуса наполняются, скоро услышите. Уж простите, но как можно высказывать мнение о ТЕХНОЛОГИИ, судя по мобильному продукту 2002 года?! На сегодняшний день работают даже стенды с распознаванием улиц и цифр (что самое сложно в распознавании, уж поверьте или почитайте). Кроме того у Speereo (у нас, скрывать не стану) система работает БЕЗ связи с удаленным сервером, т.е. на клиенте. Остальные так: нет связи, нет распознавания. У нас: плевать на связь - распознаем и так. Но если серьезно, по поводу страны Вы более, чем правы. Даже когда пытаешься рассказать чиновнику, наталкиваешься на непонимание. Словно геометрию папуасу пытаешься разъяснить. Интел, уж простите, с распознаванием провалился давно и бросил это дело. Они к нам обращались по этому поводу. Если бы были успешны, не стали бы. |
|
|
29.3.2011, 10:22
Сообщение
#9
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
Даже когда пытаешься рассказать чиновнику, наталкиваешься на непонимание. Словно геометрию папуасу пытаешься разъяснить. Я не чиновник, но тоже плохо понимаю зачем нужно распознание слитного голоса. Ладно, упомянутая выше Госдума, суды, конференции, съезды... И то там важна документальность. Поэтому всяко после распознавания будет читка текста лицом, которое потом внизу напишет "с моих слов записано верно", поставит подпись, дату и с этого момента станет "отвечать за базар" А в быту... Даже не представляю какие могут быть применения. |
|
|
29.3.2011, 12:38
Сообщение
#10
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
Даже когда пытаешься рассказать чиновнику, наталкиваешься на непонимание. Словно геометрию папуасу пытаешься разъяснить. Я не чиновник, но тоже плохо понимаю зачем нужно распознание слитного голоса. Ладно, упомянутая выше Госдума, суды, конференции, съезды... И то там важна документальность. Поэтому всяко после распознавания будет читка текста лицом, которое потом внизу напишет "с моих слов записано верно", поставит подпись, дату и с этого момента станет "отвечать за базар" А в быту... Даже не представляю какие могут быть применения. В данном случае - распознавание слитной речи - это технология, а не применение. Простой пример: в авто устанавливать маршрут удобнее голосом. Дома, среди сотен каналов, хочется выбрать тот, который хочется смотреть сразу - без тыканья в кнопки (или сразу передачу). В терминале оплаты хочется сразу перейти к услуге, которую будете оплачивать. И так далее.)))) И я так могу дооолго. Главное не как применить, а перебороть предубеждения и опыт крупных корпораций, что сильно испортили репутацию технологии своими плохими попытками ранее. |
|
|
29.3.2011, 15:23
Сообщение
#11
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
Простой пример: в авто устанавливать маршрут удобнее голосом. Дома, среди сотен каналов, хочется выбрать тот, который хочется смотреть сразу - без тыканья в кнопки (или сразу передачу). В терминале оплаты хочется сразу перейти к услуге, которую будете оплачивать. И так далее.)))) И я так могу дооолго. Примеры, конечно, сильные. Только все не в тему. Все это гораздо быстрее, удобнее и молча(!!!) делается с клавиатуры. Это явно не стоит развития целой технологии, тем что в общем это все давно уже реализовано. У меня голосовой набор есть в мобильном телефоне. Не пользуюсь. Знаете почему? ;) |
|
|
29.3.2011, 19:27
Сообщение
#12
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
Зарубежных движков распознавания русской речи достаточно много - в период "холодной войны" западные силовые ведомства (DARPA, например) серьезно вкладывались в эту тему. После того, как Россию перестали рассматривать как серьезную угрозу, стали финансировать распознавание арабской и китайской речи.
Компании типа Google или Nuance сняли сливки - Google переманила всю команду разработчиков из AT&T, Nuance, не заморачиваясь, скупила сразу несколько компаний. А вот российских движков распознавания мало. Реально работающий движок слитного распознавания видел только у Центра Речевых Технологий (его по России-2 показывали). Что касается ограниченных задач (выделение ключевых слов в потоке речи, распознавание отдельных речевых команд), то готовых решений намного больше: тот же ЦРТ, СТЭЛ, Интеллект-Телеком (тот самый бывший нижегородский Intel), Эктако, ОТ-Контакт, Speereo и еще пяток компаний. Из всех компаний, кстати, только у ЦРТ выложены на сайте демо-версии распознавания. Возможно, это только свидетельствует о их чуть большей открытости, но без длительной переписки с отделом продаж получить демо-версию от других компаний просто невозможно. Сообщение отредактировал lvk - 29.3.2011, 19:28 |
|
|
30.3.2011, 7:45
Сообщение
#13
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
Простой пример: в авто устанавливать маршрут удобнее голосом. Дома, среди сотен каналов, хочется выбрать тот, который хочется смотреть сразу - без тыканья в кнопки (или сразу передачу). В терминале оплаты хочется сразу перейти к услуге, которую будете оплачивать. И так далее.)))) И я так могу дооолго. Примеры, конечно, сильные. Только все не в тему. Все это гораздо быстрее, удобнее и молча(!!!) делается с клавиатуры. Это явно не стоит развития целой технологии, тем что в общем это все давно уже реализовано. У меня голосовой набор есть в мобильном телефоне. Не пользуюсь. Знаете почему? ;) Клавиатурой пользуетесь на ходу? Тенденция авторынка - не давать водителю отрывать глаза от дороги. Вводится даже законодательно. Не удивлюсь, если лет через пять будет всемирным требованием. Следовательно, чтобы ввести с клавиатуры, Вам придется остановиться, ввести маршрут и двинуться по нему. Следовательно, на шоссе, например, придется еще искать ГДЕ остановиться. В телефоне Вы распознаванием не пользуетесь, потому что оно не работает. Но разве на Вашем распознавании стоит наша торговая марка? Не думаю. |
|
|
30.3.2011, 11:36
Сообщение
#14
|
|
Группа: Сообщений: 0 Регистрация: -- Пользователь №: |
Клавиатурой пользуетесь на ходу? Тенденция авторынка - не давать водителю отрывать глаза от дороги. Вводится даже законодательно. Не удивлюсь, если лет через пять будет всемирным требованием. Следовательно, чтобы ввести с клавиатуры, Вам придется остановиться, ввести маршрут и двинуться по нему. Следовательно, на шоссе, например, придется еще искать ГДЕ остановиться. Не пользуюсь. Маршрут на навигаторе задаю до начала поездки. А в том крайнем случае, когда планы резко меняются, могу это сделать на светофоре, в пробке, а даже и на ходу, если сочту возможным. У меня включен набор T9 - буквально 2-3 нажатия и нужная улица передо мной. Это куда менее отвлекает от дороги, чем разговор по мобильному на ходу - он во многих странах вообще запрещен. А голосовым набором на телефоне не пользуюсь не только потому, что он неуверенно работает, но и потому, что не хочу чтобы окружающие слышали кому я звоню |
|
|
Текстовая версия | Сейчас: 28.5.2024, 14:50 |