Сравнение машинного обучения как услуги:

По мнению Altexsoft

Что такое машинное обучение как услуга?

Машинное обучение как услуга (MLaaS) – это общее определение автоматизированных и полуавтоматических облачных платформ, которые охватывают большинство вопросов инфраструктуры, таких как предварительная обработка данных, обучение модели и оценка модели, с дальнейшим прогнозированием. Результаты прогнозирования могут быть связаны с внутренней ИТ-инфраструктурой через API REST.

Сервисы Amazon Machine Learning, Azure Machine Learning и Google Cloud AI – три ведущих облачных сервиса MLaaS, которые обеспечивают быстрое обучение и развертывание моделей без каких-либо практических знаний в области наук о данных. Это следует учитывать в первую очередь, если вы собираете доморощенную команду по науке о данных из имеющихся разработчиков программного обеспечения. 

Услуги машинного обучения для пользовательских задач прогнозной аналитики

Прогнозная аналитика с Amazon ML

Сервисы машинного обучения Amazon доступны на двух уровнях: прогнозирующая аналитика с Amazon ML и инструмент SageMaker для исследователей данных.

Машинное обучение Amazon для прогнозной аналитики является одним из наиболее автоматизированных решений на рынке и наилучшим образом подходит для операций, чувствительных к срокам. Служба может загружать данные из нескольких источников, включая Amazon RDS, Amazon Redshift, файлы CSV и т. Д. Все операции предварительной обработки данных выполняются автоматически: служба определяет, какие поля являются категориальными, а какие числовыми, и не просит пользователя выбрать методы дальнейшей обработки данных (уменьшение размерности и отбеливание).

Возможности прогнозирования Amazon ML ограничены тремя вариантами: двоичная классификация, мультиклассовая классификация и регрессия . Тем не менее, этот сервис Amazon ML не поддерживает какие-либо неконтролируемые методы обучения, и пользователь должен выбрать целевую переменную, чтобы пометить ее в учебном наборе. Кроме того, пользователь не обязан знать какие-либо методы машинного обучения, потому что Amazon выбирает их автоматически после просмотра предоставленных данных.

Этот высокий уровень автоматизации служит как преимуществом, так и недостатком для использования Amazon ML. Если вам нужно полностью автоматизированное, но ограниченное решение, сервис может соответствовать вашим ожиданиям. Если нет, то есть SageMaker.

Amazon SageMaker и сервисы на основе фреймворков

SageMaker – это среда машинного обучения, которая должна упростить работу коллеги-ученого, предоставляя инструменты для быстрого построения и развертывания моделей. Amazon имеет встроенные алгоритмы, которые оптимизированы для больших наборов данных и вычислений в распределенных системах. Они включают:

  • Линейный ученик, контролируемый метод классификации и регрессии
  • Машины факторизации для классификации и регрессии, предназначенные для разреженных наборов данных
  • XGBoost – это алгоритм контролируемых деревьев с улучшенными параметрами, который повышает точность прогнозирования в классификации, регрессии и ранжировании , комбинируя прогнозы более простых алгоритмов.
  • Классификация изображений на основе ResNet , которая также может применяться для обучения передачи
  • Seq2seq – это контролируемый алгоритм для прогнозирования последовательностей (например, перевода предложений, преобразования строк слов в более короткие в качестве резюме и т. Д.)
  • K-means – неконтролируемый метод обучения для кластеризации задач
  • Анализ основных компонентов, используемый для уменьшения размерности
  • Латентное выделение Дирихле – это неконтролируемый метод, используемый для поиска категорий в документах.
  • Нейронная модель темы (NTM) – это неконтролируемый метод, который исследует документы, выявляет слова с высоким рейтингом и определяет темы (пользователи не могут заранее определять темы, но они могут устанавливать ожидаемое количество из них)

Встроенные методы SageMaker в значительной степени пересекаются с API-интерфейсами ML, которые предлагает Amazon, но здесь это позволяет ученым, работающим с данными, играть с ними и использовать свои собственные наборы данных.

Если вы не хотите использовать их, вы можете добавить свои собственные методы и модели с помощью SageMaker, используя его возможности развертывания. 

Как правило, сервисы машинного обучения Amazon предоставляют достаточно свободы как опытным ученым, работающим с данными, так и тем, кому просто нужно что-то делать, не углубляясь в подготовку наборов данных и моделирование. Это было бы хорошим выбором для компаний, которые уже используют среду Amazon и не планируют переход на другого облачного провайдера.

Студия машинного обучения Microsoft Azure

Цель машинного обучения Azure – создать мощную игровую площадку как для новичков, так и для опытных исследователей данных. Список продуктов ML от Microsoft аналогичен списку продуктов Amazon, но Azure на сегодняшний день кажется более гибким с точки зрения готовых алгоритмов.

Службы Azure можно разделить на две основные категории: студия машинного обучения Azure и служба ботов. Давайте выясним, что находится под капотом Azure ML Studio. Мы вернемся к Bot Service в разделе, посвященном конкретным API и инструментам.

ML Studio – это основной пакет MLaaS, на который стоит посмотреть. Почти все операции в Azure ML Studio должны выполняться вручную. Это включает в себя исследование данных, предварительную обработку, выбор методов и проверку результатов моделирования.

Подход к машинному обучению с помощью Azure влечет за собой некоторую кривую обучения. Но в конечном итоге это приводит к более глубокому пониманию всех основных методов в этой области. С другой стороны, Azure ML поддерживает графический интерфейс для визуализации каждого шага в рабочем процессе. Возможно, основным преимуществом использования Azure является разнообразие алгоритмов, доступных для игры. Studio поддерживает около 100 методов, которые занимаются классификацией (бинарный + мультикласс), обнаружением аномалий , регрессией, рекомендациями и анализом текста. Стоит отметить, что платформа имеет один алгоритм кластеризации (K-means).

Другая большая часть Azure ML – это Cortana Intelligence Gallery . Это набор решений для машинного обучения, предоставленных сообществом, для изучения и повторного использования учеными-данными. Продукт Azure – это мощный инструмент, позволяющий начать с машинного обучения и познакомить его с новыми сотрудниками.

Google Cloud Machine Learning Engine

Google ML Engine – обслуживает опытных исследователей данных, он очень гибок и предлагает использовать облачную инфраструктуру с TensorFlow в качестве драйвера машинного обучения. Таким образом, ML Engine очень похож на SageMaker в принципе.

TensorFlow – это продукт Google, который представляет собой библиотеку машинного обучения с открытым исходным кодом , представляющую собой различные инструменты для обработки данных, а не ML-as-a-service. У него нет визуального интерфейса, и кривая обучения для TensorFlow будет довольно крутой. Тем не менее, библиотека также предназначена для разработчиков программного обеспечения, которые планируют перейти к науке о данных. TensorFlow довольно мощный, но в основном предназначен для задач глубокой нейронной сети.

По сути, сочетание TensorFlow и сервиса Google Cloud предлагает решения «инфраструктура как услуга» и «платформа как услуга» в соответствии с трехуровневой моделью облачных сервисов.

Чтобы завершить платформы машинного обучения как услуги, кажется, что в настоящее время Azure имеет самый универсальный набор инструментов на рынке MLaaS. Он покрывает большинство задач, связанных с ML, предоставляет интерфейс визуализации для создания пользовательских моделей и имеет солидный набор API для тех, кто не хочет связывать науку с данными голыми руками. Тем не менее, ему по-прежнему не хватает средств автоматизации, доступных на Amazon.

API машинного обучения от Amazon, Microsoft и Google сравнения

Помимо полноценных платформ, вы можете использовать высокоуровневые API. Это сервисы с обученными моделями, которые вы можете использовать для получения данных и получения результатов. API не требуют опыта машинного обучения вообще. В настоящее время API-интерфейсы этих трех поставщиков можно разделить на три большие группы:

1) распознавание текста, перевод и анализ текста

2) распознавание изображения + видео и связанный анализ

3) другое, включающее конкретные некатегоризованные услуги

API для обработки речи и текста: Amazon

Amazon предоставляет несколько API-интерфейсов, предназначенных для популярных задач в рамках анализа текста. Они также высоко автоматизированы с точки зрения машинного обучения и просто нуждаются в надлежащей интеграции для работы.

Amazon Lex . Lex API создан для встраивания чат-ботов в ваши приложения, поскольку он содержит возможности автоматического распознавания речи (ASR) и обработки естественного языка (NLP). Они основаны на моделях глубокого обучения. API может распознавать письменный и устный текст, а интерфейс Lex позволяет подключать распознанные входные данные к различным внутренним решениям. Очевидно, что Amazon поощряет использование своей облачной среды Lambda . Итак, до подписки на Lex, познакомьтесь и с Lambda. Помимо автономных приложений, Lex в настоящее время поддерживает развертывание чат-ботов для Facebook Messenger, Slack и Twilio.

Amazon Транскрибируйте . Хотя Lex является сложным инструментом, ориентированным на чат-ботов, Transcribe создан исключительно для распознавания разговорного текста. Инструмент может распознавать несколько динамиков и работает с некачественным телефонным звуком. Это делает API подходящим решением для каталогизации аудиоархивов или хорошей поддержкой для дальнейшего анализа текста данных call-центра.

Амазон Полли . Сервис Полли – это своего рода обратная сторона Лекса. Он превращает текст в речь, что позволит вашим чат-ботам отвечать голосом. Это не собирается составлять текст, хотя, просто заставьте текст казаться близким человеку. Если вы когда-либо пробовали Alexa, у вас есть идея. В настоящее время он поддерживает как женские, так и мужские голоса на 25 языках , в основном на английском и западноевропейском. В некоторых языках много женских и мужских голосов, поэтому есть даже из чего выбрать. Как и Лекс, Полли рекомендуется использовать с лямбдами.

Амазонка Постигаю . Comprehend – это еще один набор API-интерфейсов НЛП, которые, в отличие от Lex и Transcribe, предназначены для различных задач анализа текста. В настоящее время Comprehend поддерживает:

  • Извлечение сущностей (распознавание имен, дат, организаций и т. Д.)
  • Определение ключевой фразы
  • Распознавание языка
  • Анализ настроений (насколько позитивен, нейтрален или негативен текст)
  • Моделирование тем (определение доминирующих тем путем анализа ключевых слов)

Этот сервис поможет вам проанализировать ответы, комментарии и другие большие текстовые данные в социальных сетях, которые не поддаются ручному анализу, например, комбинация Comprehend и Transcribe поможет проанализировать настроения в вашей телефонной службе, управляемой клиентами.

Amazon Translate. Как следует из названия, служба Translate переводит тексты. Amazon утверждает, что использует нейронные сети, которые – по сравнению с подходами к переводу на основе правил – обеспечивают лучшее качество перевода. 

API для обработки речи и текста: Microsoft Azure Cognitive Services

Как и Amazon, Microsoft предлагает высокоуровневые API-интерфейсы, Cognitive Services , которые могут быть интегрированы с вашей инфраструктурой и выполнять задачи, не требуя знаний в области наук о данных.

Речь. Речевой набор содержит четыре API, которые применяют различные типы методов обработки естественного языка (NLP) для естественного распознавания речи и других операций:

  • Translator Speech API
  • Bing Speech API для преобразования текста в речь и речи в текст
  • API распознавания речи для задач голосовой проверки
  • Пользовательский речевой сервис для применения возможностей Azure NLP с использованием собственных данных и моделей

Язык. Языковая группа API фокусируется на текстовом анализе, подобном Amazon Comprehend:

  • Language Understanding Intelligent Service – это API, который анализирует намерения в тексте распознаваться как команды (например, «запустить приложение YouTube» или «включить свет в гостиной»)
  • API анализа текста для анализа настроений и определения тем
  • Проверка орфографии Bing
  • Переводчик текстового API
  • API модели языка веб, который оценивает вероятности сочетаний слов и поддерживает автозаполнение слов
  • API лингвистического анализа, используемый для разделения предложений, маркировки частей речи и разделения текстов на помеченные фразы

API для обработки речи и текста: Google Cloud ML Services

Хотя этот набор API в основном пересекается с тем, что предлагают Amazon и Microsoft Azure, у него есть несколько интересных и уникальных вещей, на которые стоит обратить внимание.

Dialogflow . С различными чат-ботами, стоящими на вершине современных тенденций, Google также есть что предложить. Dialogflow основан на технологиях НЛП и направлен на определение намерений в тексте и интерпретацию того, что хочет человек. API можно настроить и настроить для нужных целей, используя Java, Node.js и Python.

Облачный API на естественном языке . Этот почти идентичен по своим основным функциям Comprehend от Amazon и Language от Microsoft.

  • Определение сущностей в тексте
  • Признание настроения
  • Анализ синтаксических структур
  • Категоризация тем (например, еда, новости, электроника и т. Д.)

Облачный речевой API . Этот сервис распознает естественную речь, и, возможно, его основным преимуществом по сравнению с аналогичными API-интерфейсами является обилие языков, поддерживаемых Google. В настоящее время его вокаб работает с более чем 110 глобальными языками и их вариантами. Он также имеет некоторые дополнительные функции:

  • Подсказки по словам позволяют настроить распознавание в соответствии с конкретными контекстами и словами, которые можно произносить (например, для лучшего понимания местного или отраслевого жаргона)
  • Фильтрация неприемлемого контента
  • Обработка шумного звука

API облачного перевода . По сути, вы можете использовать этот API для использования Google Translate в своих продуктах. Этот включает в себя более ста языков и автоматического определения языка.

API для обработки речи и текста: IBM Watson

IBM также конкурирует за рынок API. Давайте посмотрим на их набор интерфейсов.

Речь в текст . В настоящее время IBM предлагает распознавание речи на 9 языках, включая японский, португальский и арабский. API может распознавать несколько динамиков, определять ключевые слова и обрабатывать аудио с потерями. Интересная особенность – захват альтернатив слова и сообщение о них. Например, если система обнаружит слово « Бостон », она может предположить, что может бытьальтернатива«Остин ». После анализа своей гипотезы API присваивает доверительную оценку каждой альтернативе.

Текст в речьИнтересно, что 9 языков преобразования текста в речь только частично соответствуют тем, которые используются в API речи и текста. Хотя оба продукта поддерживают западноевропейские языки, для преобразования текста в речь не хватает корейского и китайского языков. Английский, немецкий и испанский языки позволяют выбирать между мужскими и женскими голосами; остальные языки имеют только женские голоса. Это соответствует тенденции к тому, чтобы голосовые помощники звучали в основном как женщины.

Переводчик языка . API поддерживает 21 язык для перевода с и на английский язык. Кроме того, вы можете добавить пользовательские модели и расширить языковой охват.

Классификатор естественного языка .  В отличие от большинства упомянутых API, классификатор IBM не может быть использован без вашего собственного набора данных. По сути, этот инструмент позволяет вам обучать модели, используя ваши собственные бизнес-данные, а затем классифицировать входящие записи. Распространенными случаями использования являются маркировка продуктов в электронной коммерции, обнаружение мошенничества, категоризация сообщений, каналы в социальных сетях и т. Д.

Понимание естественного языка .Набор функций для понимания языка в IBM обширен. Помимо стандартного извлечения информации, такого как извлечение ключевых слов и сущностей с синтаксическим анализом, API предлагает ряд интересных возможностей, которые недоступны у других поставщиков. К ним относятся анализ метаданных и поиск связей между объектами. Кроме того, IBM предлагает отдельную среду для обучения ваших собственных моделей для анализа текста с использованием Knowledge Studio .

Понимание личности . Относительно необычный API позволяет анализировать тексты и получать подсказки о том, как писатель взаимодействует с миром. Это в основном означает, что система вернет:

  • характеристики личности (например, приятность, добросовестность , экстраверсияэмоциональный диапазон и открытость )
  • потребности (например, любопытство, волнение, вызов )
  • ценности (например, помощь другим, достижение успеха, гедонизм ).

На основе этих данных API может вывести предпочтения потребления (например, музыка, обучение, фильмы ). Наиболее распространенный вариант использования такой системы – анализ содержимого, созданный пользователем, для точного маркетинга продукта.

Тональный анализатор .Tone анализатор – это отдельный API, который фокусируется на анализе настроений и нацелен на исследования в социальных сетях и аналитику взаимодействия с клиентами. Не смущайтесь его неоднозначным названием. Анализатор охватывает только письменный текст и не извлекает идеи из устных.

Помимо текста и речи Amazon, Microsoft, Google и IBM предоставляют довольно универсальные API для анализа изображений и видео.

API машинного обучения для анализа изображений Amazon, Microsoft, Google и IBM

Самый универсальный инструментарий для анализа изображений в настоящее время доступен в Google Cloud

Хотя анализ изображений тесно пересекается с API видео, многие инструменты для анализа видео все еще находятся в разработке или в бета-версиях. Например, Google предлагает богатую поддержку для различных задач обработки изображений, но определенно не имеет функций анализа видео, уже доступных в Microsoft и Amazon.

Microsoft выглядит победителем, хотя мы все еще думаем, что у Amazon самые эффективные API анализа видео, поскольку она поддерживает потоковое видео. Эта особенность существенно расширяет спектр вариантов использования. IBM не поддерживает API анализа видео

API обработки изображений и видео: Amazon Rekognition

Rekognition API используется для изображения и, в последнее время , задачи распознавания видео. Они включают:

  • Обнаружение и классификация объектов (обнаружение и обнаружение различных объектов на изображениях и определение их)
  • В видео он может обнаружить такие действия, как «танцы» или сложные действия, такие как «тушение огня»
  • Распознавание лиц (для обнаружения лиц и нахождения совпадающих) и анализ лица (это довольно интересно, так как обнаруживает улыбки, анализирует глаза и даже определяет эмоциональные чувства в видео)
  • Обнаружение неуместных видео
  • Распознавание знаменитостей в изображениях и видео (для любых целей)

API обработки изображений и видео: Microsoft Azure Cognitive Services

Пакет Vision от Microsoft объединяет шесть API-интерфейсов, ориентированных на анализ изображений, видео и текста различных типов.

  • Компьютерное зрение, которое распознает объекты, действия (например, ходьбу), письменные и печатные тексты и определяет доминирующие цвета на изображениях
  • Модератор контента обнаруживает неприемлемый контент в изображениях, текстах и ​​видео
  • API Face распознает лица, группирует их, определяет возраст, эмоции, пол, позы, улыбки и волосы на лице.
  • Emotion API – еще один инструмент распознавания лиц, который описывает выражения лица
  • Custom Vision Service поддерживает создание пользовательских моделей распознавания изображений с использованием ваших собственных данных.
  • Видеоиндексатор – это инструмент для поиска людей в видео, определения настроения речи и выделения ключевых слов.

API обработки изображений и видео: Google Cloud Services

API облачного видения . Инструмент построен для задач распознавания изображений и довольно мощный для поиска определенных атрибутов изображения:

  • Маркировка объектов
  • Обнаружение лиц и анализ выражений (без специального распознавания лиц или идентификации)
  • Нахождение ориентиров и описание сцены (например, отпуск, свадьба и т. Д.)
  • Поиск текстов на изображениях и определение языков
  • Доминирующие цвета

Облако Видео Интеллект . API распознавания видео от Google находится на ранней стадии разработки, поэтому ему не хватает многих функций, доступных в Amazon Rekognition и Microsoft Cognitive Services. В настоящее время API предоставляет следующий набор инструментов:

  • Маркировка объектов и определение действий
  • Выявление явного содержания
  • Расшифровка речи

В то время как на уровне списка функций сервисам Google AI может не хватать некоторых возможностей, мощь API Google заключается в обширных наборах данных, к которым у Google есть доступ.

API обработки изображений и (без) видео: IBM Visual Recognition

Визуальный API распознавания с помощью IBM в настоящее время не поддерживает видеоанализа, которая уже доступна на других поставщиков (отсюда и заголовок данного раздела). И механизм распознавания изображений предлагает базовый набор функций, несколько ограниченный по сравнению с тем, что предлагают другие производители:

  • Распознавание объектов
  • Распознавание лиц (API возвращает возраст и пол)
  • Распознавание продуктов питания (по какой-то причине IBM разработала специальную модель для продуктов питания)
  • Неподходящее обнаружение контента
  • Распознавание текста (эта часть API API находится в закрытой бета-версии, поэтому вы должны запросить отдельный доступ)

Специальные API и инструменты

Здесь мы обсудим конкретные предложения API и инструменты, предоставляемые Microsoft и Google. Мы не включили Amazon здесь, поскольку их наборы API просто соответствуют вышеупомянутым категориям анализа текста и анализа изображения + видео. Однако некоторые возможности этих специфических API-интерфейсов также присутствуют в продуктах Amazon.

Каркас Azure Service Bot. Microsoft приложила много усилий, чтобы предоставить своим пользователям гибкий набор инструментов для разработки ботов . По сути, сервис содержит полноценную среду для сборки, тестирования и развертывания ботов с использованием разных языков программирования.

Интересно, что служба ботов не обязательно требует машинного обучения. Поскольку Microsoft предоставляет пять шаблонов для ботов (базовый, форма, понимание языка, упреждающий и вопросы и ответы), только тип понимания языка требует продвинутых методов ИИ.

В настоящее время вы можете использовать технологии .NET и Node.js для создания ботов с помощью Azure и развертывания их на следующих платформах и службах:

  • Bing
  • Кортана
  • Skype
  • Веб-чат
  • Электронная почта Office 365
  • GroupMe
  • Facebook Messenger
  • слабина
  • Кик
  • телеграмма
  • Twilio

Поиск Bing от Microsoft . Microsoft предлагает семь API-интерфейсов, которые соединяются с основными функциями поиска Bing, включая автозаполнение, поиск новостей, изображений и видео.

Знания от Microsoft . Эта группа API объединяет анализ текста с широким спектром уникальных задач:

  • API рекомендаций позволяет создавать рекомендательные системы для персонализации покупок
  • Служба исследования знаний позволяет вводить естественные запросы для извлечения данных из баз данных, визуализации данных и автозаполнения запросов.
  • Entity Linking Intelligence API предназначен для выделения имен и фраз, обозначающих соответствующие сущности (например, Age of Exploration) и обеспечивающих устранение неоднозначности
  • API Academic Knowledge выполняет автозаполнение слов, находит сходства в документах как в словах, так и в понятиях, а также ищет графовые шаблоны в документах.
  • QnA Maker API можно использовать для сопоставления различных вопросов с ответами для создания чат-ботов и приложений по обслуживанию клиентов.
  • Служба пользовательских решений – это вспомогательный учебный инструмент для персонализации и ранжирования различных типов контента (например, ссылок, рекламы и т. Д.) В зависимости от предпочтений пользователя.

Google Cloud Job Discovery . API еще находится на ранней стадии разработки, но вскоре он может переопределить возможности поиска работы, которыми мы располагаем сегодня. В отличие от обычных систем поиска работы, которые полагаются на точные соответствия ключевых слов, Google использует машинное обучение, чтобы найти релевантные связи между крайне вариативными описаниями работы и избежать двусмысленности. Например, он стремится уменьшить нерелевантную или слишком широкую отдачу, например, возвращая все задания с ключевым словом «помощник» для запроса «продавец-консультант». Каковы основные функции API?

  • Исправление орфографических ошибок в поисковых запросах
  • Соответствует желаемому уровню старшинства
  • Поиск релевантных заданий, в которых могут присутствовать вариативные выражения и отраслевой жаргон (например, возвращая «barista» для «серверного» запроса вместо «сетевой специалист» или «специалист по взаимодействию» для «biz dev»)
  • Работа с аббревиатурами (например, возвращение «помощника по кадрам» для запроса «HR»)
  • Соответствие вариативным описаниям местоположения

Ватсон Ассистент . Платформа Watson chatbot (ранее Conversation) довольно известна среди инженеров ИИ, которые специализируются на диалоговых интерфейсах . IBM предоставляет полноценную инфраструктуру для создания и развертывания ботов, способных анализировать сущности в реальном времени и анализ намерений пользователей в сообщениях.

Инженеры могут использовать встроенную поддержку развертывания Facebook Messenger и Slack или создать клиентское приложение для запуска бота.

Все четыре платформы, описанные выше, предоставляют достаточно исчерпывающую документацию для начала экспериментов по машинному обучению и развертывания обученных моделей в корпоративной инфраструктуре. Существует также ряд других решений ML-as-a-Service, которые приходят из стартапов и пользуются уважением у ученых, таких как PredicSis и BigML .

Хранилище данных

Поиск подходящего хранилища для сбора данных и дальнейшей обработки с помощью машинного обучения больше не является большой проблемой, если учесть, что ваши специалисты по данным имеют достаточно знаний для работы с популярными решениями хранения.

В большинстве случаев для машинного обучения требуются схемы баз данных SQL и NoSQL, которые поддерживаются многими признанными и надежными решениями, такими как Hadoop Distributed File System (HDFS), Cassandra, Amazon S3 и Redshift. Для организаций, которые использовали мощные системы хранения до того, как приступить к машинному обучению, это не будет препятствием. Если вы планируете работать с какой-либо системой ML-as-a-service, самый простой способ – выбрать одного и того же поставщика для хранения и машинного обучения, поскольку это сократит время, затрачиваемое на настройку источника данных.

Однако некоторые из этих платформ могут быть легко интегрированы с другими хранилищами. Например, Azure ML в основном интегрируется с другими продуктами Microsoft (Azure SQL, Azure Table, Azure Blob), но также поддерживает Hadoop и несколько других вариантов источников данных. К ним относится прямая загрузка данных с настольного или локального сервера. Проблемы могут возникнуть, если ваш рабочий процесс машинного обучения диверсифицирован и данные поступают из нескольких источников.

Моделирование и вычисления

We’ve discussed ML-as-a-service solutions that mainly provide computing capacities. But if the learning workflow is performed internally, the computing challenge will strike sooner or later. Machine learning in most cases requires much computing power. Data sampling (making a curated subset) is still a relevant practice, regardless of the fact that the era of big data has come. While model prototyping can be done on a laptop, training a complex model using a large dataset requires investment into more powerful hardware. The same applies to data preprocessing, which can take days on regular office machines. In a deadline-sensitive environment – where sometimes models should be altered and retrained weekly or daily – this simply isn’t an option. There are three viable approaches to handling processing while keeping high performance:

  1. Ускорение оборудования. Если вы выполняете относительно простые задачи и не применяете свои модели для больших данных, используйте твердотельные накопители (SSD) для таких задач, как подготовка данных или аналитическое программное обеспечение. Вычислительные операции могут выполняться с помощью одного или нескольких графических процессоров (GPU). Имеется ряд библиотек, позволяющих графическим процессорам обрабатывать модели, написанные даже на таких языках высокого уровня, как Python.
  2. Рассмотрим распределенные вычисления. Распределенные вычисления подразумевают наличие нескольких машин с распределенными по ним задачами. Тем не менее, этот подход не будет работать для всех методов машинного обучения.
  3. Используйте облачные вычисления для масштабируемости. Если ваши модели обрабатывают данные, относящиеся к клиентам, которые имеют интенсивные пиковые моменты, сервисы облачных вычислений обеспечат быструю масштабируемость. Для компаний, которым необходимо иметь свои данные только локально, стоит рассмотреть инфраструктуру частного облака.

Следующий ход

Легко заблудиться в разнообразии доступных решений. Они отличаются с точки зрения алгоритмов, они отличаются с точки зрения требуемых навыков, и в конечном итоге они различаются по задачам. Такая ситуация довольно распространена для этого молодого рынка, поскольку даже четыре ведущих решения, о которых мы говорили, не вполне конкурентоспособны друг с другом. И более того, скорость изменений впечатляет. Существует высокая вероятность того, что вы будете придерживаться одного поставщика, и внезапно другой выкатит что-то неожиданно, что соответствует потребностям вашего бизнеса.

Правильный шаг – сформулировать, что вы планируете достичь с помощью машинного обучения, как можно раньше. Это не просто. Создать мост между наукой о данных и бизнес-ценностью сложно, если вам не хватает ни науки о данных, ни опыта в предметной области. Мы в AltexSoft часто сталкиваемся с этой проблемой, обсуждая приложения машинного обучения с нашими клиентами. Обычно это вопрос упрощения общей проблемы до одного атрибута. Будь то прогноз цены или другое числовое значение, класс объекта или разделение объектов на несколько групп, как только вы найдете этот атрибут, выбор поставщика и выбор предложенного будет проще.

Брэдфорд Кросс, партнер-основатель DCVC, утверждает, что ML-as-a-services не является жизнеспособной бизнес-моделью . По его словам, это разрыв между учеными, которые собираются использовать продукты с открытым исходным кодом, и руководителями, которые собираются покупать инструменты для решения задач на более высоких уровнях. Тем не менее, похоже, что отрасль в настоящее время преодолевает свои проблемы с прорезыванием зубов, и в конечном итоге мы увидим, что гораздо больше компаний обращаются к ML-as-a-service, чтобы избежать дорогостоящих приобретений талантов и все еще обладают универсальными инструментами обработки данных.

Оригинал статьи тут. Перемещено с разрешения.

Comments are closed.