Главная / Обзоры и мнения / Сделано в Латвии. Tilde: как превратить малые языки в большой экспортный продукт
Tilde chat bot screen_opt

Сделано в Латвии. Tilde: как превратить малые языки в большой экспортный продукт

  •  
  •  
  •  
  •  
  •  

Клиентами латвийской Tilde становятся мировые ИТ-гиганты, европейские государства, крупные скандинавские компании. А она развивает все новые продукты, которые, как говорит один из основателей компании, должны дать носителям малых языков то, что не дают Google или Microsoft, и предоставить те же возможности использования технологий, которыми располагают языки глобальные.

Побороли «чебурашек»

Tilde появилась в далеком 1991 году, почти одновременно с восстановленной независимостью Латвийской Республики. Точнее, предварительный старт состоялся еще раньше – в 1989-м. Будущий совладелец компании Андрей Васильев, тогда изучавший компьютерные науки в Латвийском университете (еще называвшемся Латвийским государственным университетом имени Петериса Стучки), решил внести свой вклад в восстановление независимости страны и включился в работу координационного центра Народного фронта. А именно в работу газеты «Атмода» – написал для нее небольшие программы для учета выданных экземпляров (их распространяли через водителей междугородних автобусов), оформления накладных и др.

Чуть позже часть редакции «Атмоды» стала создавать газету Diena – тогдашний ее коммерческий директор, нынешний министр экономики Арвилс Ашераденс, обратился к Андрею и Улдису Дзенису (второму совладельцу Tilde), чтобы те помогли наладить компьютерную систему производства издания.

Andrejs_Vasiljevs_TILDE_opt

«С «Атмодой» все было просто – всего один компьютер. А в «Диене» – 30 человек, русская и латышская редакции, газету верстали на «Макинтоше», тексты набирали на PC под Windows. При этом для «Макинтоша» тогда не было русских шрифтов, в Windows – латышских, а при переносе текста с PC на «Мак» буквы превращались в «чебурашек». Поэтому надо было делать шрифты, делать конверторы… Это сейчас все происходит как бы само собой, а тогда ничего такого не было. Это была очень интересная работа, и мы с ней справились», — рассказывает Васильев.

В маленькой Латвии новости распространяются быстро, и об успехе прознали другие активно появляющиеся в то время редакции. Аналогичные заказы посыпались со всех сторон. Тогда-то и пришло понимание, что «на языке» можно построить бизнес, и это довольно перспективная рыночная ниша. Собственно, тогда-то Андрей с Улдисом и решили зарегистрировать Tilde. В первые годы она занималась созданием программы для автоматической проверки латышской орфографии и бухгалтерских программ (которые предлагаются до сих пор, хоть и сильно переработанные).

Качественный скачок произошел, когда у компании началось сотрудничество с Microsoft. Это был 1995 год.

«Понятно, что в начале 90-х мы были настолько малы, что такой гигант, как Microsoft просто не знал о нашем существовании, — рассказывает Андрей Васильев. — Мы поехали на компьютерную выставку в Москву, чтобы узнать о новых технологиях. Там участвовал и Microsoft. Подошли к их представителям, познакомились, сказали, что мы – из Латвии, внедряем латышский язык в существующие программы. Они вежливо взяли наши визитки и на этом все закончилось».

Васильев признается, что в тот момент они с компаньоном особо не надеялись на продолжение знакомства. Но через пару лет «гора пришла к Магомету» – Microsoft сначала консультировалась с местными специалистами, готовясь войти на латвийский рынок, а позже сама предложила Tilde проект по локализации своего программного обеспечения для Латвии. Проект оказался успешным, следом последовали аналогичные заказы для эстонского и литовского языков.

Услуги по локализации для крупнейших ИТ-компаний мира – стало одним из важных направлений бизнеса. Помимо Microsoft со временем клиентами стали IBM, Oracle, SAP – и не только в Латвии: Tilde охватывает весь балтийский рынок и имеет представительства во всех трех странах; всего на нее работают 130 человек.

Три этапа эволюции

Tilde slovari_opt

Но самым интересным и перспективным направлением бизнеса стало развитие машинного перевода, в которое предприятие инвестирует больше всего. Потому что, как говорит Андрей Васильев, перевести текст не трудно, трудно сделать это хорошо.

«Мечта переводить не только слова и простые фразы появилась у нас давно, еще в конце 1990-х, когда Google Translate и в помине не было, –рассказывает Васильев. — Конечно, такие продукты уже создавались в разных странах, и мы их предварительно изучили. Решили, что справимся года за два. Но ошиблись по срокам раз в пять: разработка заняла целых десять лет и продолжается до сих пор.»

Как объясняет предприниматель, проблема в богатстве человеческого языка: у слов может быть множество значений, из-за чего перевод на основе одних только правил (этот подход пытались развивать во второй половине ХХ века и в начале «нулевых») и без учета контекста приводил к появлению смешных уродцев вроде «ясных печенек». Поэтому ранние версии таких программ популярностью не пользовались, машина не только по всем статьям уступала человеку, но и не особо помогала ему. В чем специалисты Tilde убедились сами: сделали первую версию своего переводчика, остались недовольны и решили искать способ, как обучить компьютер «умному», а не дословному переводу.

«В 2011 году стало ясно, что своими силами не справимся, — вспоминает Васильев. – Надо было привлекать специалистов со стороны. Тогда же Google начал развивать свой переводчик – во многом благодаря тому, что им удалось привлечь для этого проекта одного из двух всемирно признанных ученых в этой сфере. Второй, Филипп Коэн отказался от сотрудничества с интернет-гигантом – не захотел оставлять академическую среду ради бизнес-проекта.

Нам очень хотелось заручиться его поддержкой. Но мы думали: если он отказал Google, чем мы его можем заинтересовать? Но все же набрались смелости и на одной конференции подошли к нему. Рассказали, чем занимаемся, что хотим сделать… И он неожиданно заинтересовался и с большим энтузиазмом позже подключился к нашему проекту. Так что в 2013 году мы во многом благодаря его помощи создали новую технологию и новый продукт – так называемый статистический машинный перевод «.

Идея нового подхода заключалась в том, чтобы научить компьютер «понимать» не просто значения отдельных слов, а целые словосочетания на основе уже готовых переводов. Т.е. берется один и тот же текст, скажем, на латышском и русском или английском (например, закон или «Карлсон, который живет на крыше»), разбивается на словосочетания и анализируется. Соответственно, если есть большое количество текстов определенной тематики, можно сделать специализированный переводчик – например, нормативных документов, для чего надо было завести в электронные системы сотни тысяч готовых человеческих переводов и, главное, создать алгоритмы их обработки, чтобы компьютер воспринимал словосочетания в контексте.

А пару лет назад начался новый этап эволюции машинного перевода: для него стали использовать нейронные сети, которые на огромных массивах текстов обучают компьютер воспринимать не отдельные словосочетания, а сразу целые предложения. В 2016-м о внедрении новой технологии объявил Google. Tilde же, как говорит собеседник smartlatvia.lv стала первой в мире, кому удалось сделать то же самое для работы с малыми языками.

«Эти технологии намного сложнее, для их развития и для подготовки соответствующих данных у нас в штате восемь докторов наук. Мы тесно сотрудничаем с немецким центром по искусственному интеллекту DFKI, с греческим центром по языковым технологиям ILSP, с Латвийским университетом и с рядом других европейских университетов», – отмечает он.

И сейчас, по его словам, машинный переводчик его компании работает с латышским, эстонским и литовским языками качественнее, чем аналогичный продукт ИТ-гиганта. Наиболее удачно он работает с парой латышский – английский и особенно в с юридическими документами, а также в сегменте компьютерных знаний, чему весьма поспособствовали упомянутые услуги по локализации продуктов крупных ИТ-компаний: за полтора десятка лет такой работы накопилась огромная база собственных переводов. Качество продукта в этом году получило официальное признание по итогам международного конкурса машинного перевода WMT 2018.

Не латышским единым

Tilde Laura 2_opt

Впрочем, только лишь латышским и английским языком дело не ограничивается. Во время президентства Латвии в ЕС Tilde обеспечила платформу для перевода соответствующих материалов на европейские языки. Тот проект стал пробным шаром, и после него латвийская компания получала аналогичные заказы для президентств Эстонии, а затем Болгарии и Австрии. По словам А. Васильева, это объясняется тем, что Google Translate хорош при работе с большими языками, но не с малыми – особенно, когда речь идет о специфических технических и юридических текстах.

Но и в частном секторе различные разработки Tilde расходятся далеко за пределами Латвии.

«У нас много в Европе. — говорит Васильев. — Так, в свое время мы решили осваивать рынок Польши и выпустить машинный переводчик, соответственно, для польского. У нас на тот момент уже была технология нейронных сетей, а сильных конкурентов там не оказалось. Это дало нам преимущество, и сейчас наш продукт на этом рынке пользуется большим спросом среди профессиональных переводчиков, которые понимают, что технологии облегчают им жизнь».

Или вот недавно один клиент из Болгарии заказал специализированный переводчик для анализа бизнес-новостей на разных языках, включая болгарский, арабский и китайский. (Как пояснил А. Васильев, Google Translate заказчику не годился, так как, клиенту требовалось, чтобы вся система работала на его серверах). Примерно за полгода проект был сделан.

При этом, как сказано выше, Tilde продолжает инвестировать в алгоритмы перевода.

«Работающие у нас ученые предлагают новую технологию, мы ее тестируем и постепенно внедряем в конкретных продуктах – серийных или тех, что предлагаем индивидуальным заказчикам. Раньше весь этот цикл занимал несколько лет, сейчас все происходит за несколько месяцев. Инвестиции очень большие — доходят до миллиона евро. Но это того стоит: если мы можем быстро внедрить технологию, то у нас появляется конкурентное преимущество. Хотя, конечно, всегда остается риск, что конкретная разработка окажется не эффективной или что клиенты по каким-то причинам не будут готовы за нее платить. «, — рассказывает глава Tilde.

Будет вам работа

Tilde Chat Bot_opt

Годы работы по обучению машины переводу открыли для Tilde два новых направления, которые компания развивает с разной степенью интенсивности (и, кажется, разными перспективами монетизации) – голосовой перевод и управление и чат-боты.

Первое направление пока реализовано в виде появившейся недавно возможности управлять некоторыми программами навигации (например, Waze) голосом и по-латышски.

«Сложность в том, что разговорная речь далека от идеала, мы не говорим грамматически правильными предложениями, — поясняет Андрей Васильев. – Поэтому разработка хорошего перевода-это процесс длительный. С простыми предложениями программа справляется и сейчас, но это не годится для реальной речи. Пока этот продукт нет смысла выпускать в продажу – он еще не доработан «.

Сейчас Tilde учит мобильные операционные системы понимать и другие команды на латышском; в случае успеха технологию можно будет развить до полноценного перевода речи в текст в режиме реального времени и, как полагает предприниматель, начать переносить ее и на другие малые языки – сначала в балтийском регионе, а потом и дальше.

«В этом и заключается наша философия: мы хотим дать носителям малых языков те же возможности, что есть у людей, говорящих на больших языках. Потому что у ИТ-гигантов – Google, Microsoft, Apple – для малых языков или нет совсем ничего или есть, но не очень хорошего качества. Apple’овская Сири прекрасно справляется с английским или русским, но попробуй пообщаться с ней на латышском, исландском или каком-то другом языке с относительно небольшим числом носителей. И в этом наша возможность: мы работаем над тем, чтобы и на этих языках современные технологии были доступны и активно использовались на них», – описывает Андрей миссию Tilde.

Чат-боты же – виртуальные ассистенты, помогающие клиентам разобраться с некоторыми стандартными вопросами – уже запущены на сайте Регистра предприятий и Lattelecom, с просьбами сделать для них что-то подобное к Tilde обратились многие другие компании. Что открывает возможности для экспорта продукта в Скандинавию: пока они заказывают робо- помощников для своих балтийских подразделений, но уже просыпается интерес и к переносу разработки в другие регионы.

«Самое важное при стратегическом планировании — не отбрасывать перспективные идеи, даже если они тебе кажутся совершенно безумными, — говорит Васильев. — Помню, в 2011 году у нас во время очередного стратегического планирования прозвучала идея, что было бы здорово сделать такого виртуального консультанта со своим именем, который мог бы разговаривать с клиентами. Тогда это казалось фантастикой. Но идея была симпатичной и мы начали над ней работать».

Он признает, что виртуальный помощник как класс (еще не вполне зрелый, но технологии развиваются быстро) может выглядеть угрозой для тысяч помощников живых, которые сейчас отвечают на вопросы клиентов в крупных частных и государственных организаций. Но, считает А. Васильев, бояться особо нечего:

«Чат-боты даже когда станут более развитыми, чем сейчас, все равно будут отвечать на стандартные вопросы общего характера: как получить кредитную карту или какие документы нужны для регистрации фирмы. Но для решения конкретных проблем клиента все равно нужен будет живой специалист.

Мы видим, что происходит в сфере переводов. С одной стороны, благодаря технологиям единицу текста можно перевести намного-намного быстрее, чем когда-то, с другой – объем информации для перевода вырос колоссально и продолжает расти. К тому же машина все равно нуждается в человеческом присмотре, она не заменяет людей, а помогает им: специалист загоняет текст в программу, но потом вычитывает перевод. Это намного быстрее, чем переводить с нуля, но работы меньше не становится. И то же касается других отраслей. Так что без работы люди не останутся, хотя им, конечно, придется учиться новым навыкам – в том числе тому, как применять все время развивающиеся технологии».


  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Оставить комментарий

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>