Машинное обучение что это

Машинное обучение

Что такое машинное обучение?

Машинное обучение — это подраздел искусственного интеллекта (ИИ) и науки о данных, специализирующийся на использовании данных и алгоритмов для имитации процесса наработки опыта человеком с постепенным повышением точности.

Компания IBM внесла немалый вклад в историю машинного обучения. Так, ввод в обиход термина «машинное обучение» приписывают одному из сотрудников компании, Артуру Самюэлю в его исследовании (PDF, 481 КБ) (внешняя ссылка) игры в шашки. В 1962 году самопровозглашенный мастер по шашкам Роберт Нили сыграл партию с компьютером IBM 7094 и проиграл. По сравнению с современными возможностями это достижение кажется сущим пустяком, но оно считается важной вехой в области искусственного интеллекта. В следующие пару десятилетий технологии в области хранения данных и вычислительные мощности достигнут такого уровня, что будут созданы революционные в то время (но привычные и любимые сегодня) продукты, например система рекомендаций Netflix или беспилотные автомобили.

Машинное обучение является важным компонентом науки о данных, которая сейчас развивается стремительными темпами. С помощью статистических методов алгоритмы обучаются классифицировать данные, строить прогнозы и выделять важные моменты в ходе проектов по сбору и анализу данных. От этих выкладок зависит дальнейшее принятие решений в отношении приложений и предприятий, а в идеале они должны положительно сказаться на основных показателях роста. По мере дальнейшего роста и развития больших данных будет расти и рыночный спрос на специалистов по анализу и обработке данных, от которых будет требоваться помощь в определении самых актуальных проблем бизнеса и поиск данных для их решения.

Машинное обучение, глубокое обучение и Нейронные сети

Так как люди часто путают глубокое обучение и машинное обучение, давайте остановимся на отличительных особенностях каждого из этих понятий. Машинное обучение, глубокое обучение и нейронные сети — все это подразделы искусственного интеллекта. Но при этом глубокое обучение является подвидом машинного обучения, а нейронные сети, в свою очередь, — подвидом глубокого обучения.

Разница между глубоким и машинным обучением заключается в способе обучения алгоритмов. В глубоком обучении большая часть процесса извлечения признаков автоматизирована, что практически исключает необходимость контроля со стороны человека и позволяет использовать большие наборы данных. Лекс Фридман в своей лекции в Массачусетском технологическом институте (00:30) (внешняя ссылка) называет глубокое обучение «масштабируемым машинным обучением». Эффективность классического, «неглубокого» машинного обучения в большей степени зависит от контроля со стороны человека. Набор признаков для понимания разницы между входными данными определяется специалистом-человеком. Обычно для машинного обучения требуются более структурированные данные.

Безусловно, для алгоритмов «глубокого» машинного обучения также можно использовать размеченные наборы данных (этот принцип еще называется «контролируемым» обучением), но это необязательно. Глубокое обучение может работать с неструктурированными данными в исходном формате (например, это может быть текст или изображения): алгоритм способен самостоятельно определять набор признаков для различения разных категорий данных. В отличие от машинного обучения, вмешательство человека при обработке данных не требуется, что открывает намного больше возможностей применения этой технологии. Считается, что ускорение развития таких областей, как компьютерное зрение, обработка естественного языка и распознавание речи, произошло в основном благодаря глубокому обучению и нейронным сетям.

Нейронные сети или искусственные нейронные сети (ANN) представляют собой комплект уровней узлов: входной уровень, один или несколько скрытых и выходной уровень. Каждый узел (искусственный нейрон) связан с другими узлами с определенным весом и пороговым значением. Если вывод какого-либо узла превышает пороговое значение, то этот узел активируется и отправляет данные на следующий уровень сети. В противном случае данные на следующий уровень сети не передаются. Понятие «глубина» в глубоком обучении характеризует всего лишь количество уровней нейронной сети. Нейронную сеть, в которой больше трех уровней (включая входной и выходной) уже можно отнести к алгоритму глубокого обучения (глубокой нейронной сети). Нейронная сеть с двумя-тремя уровнями считается простой нейронной сетью.

Для того чтобы подробней ознакомиться с разными концепциями, обратитесь к публикации «AI vs. Machine Learning vs. Deep Learning vs. Neural Networks: What’s the Difference?»

Как работает машинное обучение

Согласно UC Berkeley (внешняя ссылка), система обучения алгоритма машинного обучения состоит из трех основных частей.

Методы машинного обучения

Стили машинного обучения можно разделить на три основных категории.

Контролируемое машинное обучение

Контролируемое обучение (контролируемое машинное обучение) — это метод обучения алгоритма с помощью размеченных наборов данных, что позволяет точно классифицировать данные или прогнозировать результаты. Так как входные данные поступают в модель, она сама регулирует веса до тех пор, пока не будет достаточно уточнена. Все это выполняется в рамках процесса перекрестной проверки, предназначенной для предотвращения чрезмерного или недостаточного обучения. Контролируемое обучение с успехом используется в организациях для совершенно реальных задач, например для классификации спама и переноса его в отдельную папку в вашем почтовом ящике. В контролируемом обучении используются такие методы, как нейронные сети, наивный байесовский классификатор, линейная регрессия, логистическая регрессия, метод случайного леса, метод опорных векторов (SVM) и другие.

Неконтролируемое машинное обучение

Неконтролируемое обучение (или неконтролируемое машинное обучение) использует обучающие алгоритмы для анализа и классификации неразмеченных наборов данных. Эти алгоритмы без вмешательства человека обнаруживают закономерности или связи в данных, которые в ином случае могли бы остаться незамеченными. Такая способность обнаруживать сходства и различия в информации делает эту технологию идеальным вариантом для анализа исследовательских данных, создания стратегий перекрестных продаж, сегментации клиентов, а также для распознавания образов и шаблонов. Также это помогает уменьшить число признаков в модели, применив процедуру понижения размерности с использованием анализа главных компонентов (PCA) или сингулярного разложения (SVD). Также при неконтролируемом обучении используются нейронные сети, кластеризация методом k-средних, вероятностная кластеризация и другие методы.

Полуконтролируемое обучение

Полуконтролируемое обучение предлагает золотую середину между контролируемым и неконтролируемым обучением. На этапе обучения используется размеченный набор данных небольшого размера, по которому настраивается алгоритм классификации и извлечения признаков из более крупного, неразмеченного набора данных. Полуконтролируемое обучение приходит на помочь в том случае, если отсутствует достаточный объем помеченных данных для обучения алгоритма контролируемого машинного обучения (или маркировка данных стоит слишком дорого).

Для более подробного знакомства с различиями между этими подходами, обратитесь к веб-станице «Контролируемое и неконтролируемое обучение: в чем разница?»

Машинное обучение с подкреплением

Машинное обучение с подкреплением — это поведенческая модель машинного обучения, аналогичная контролируемому типу, однако для обучения этого алгоритма не применяется эталонный набор данных. Модель постепенно обучается методом проб и ошибок. Таким образом, последовательность успешных решений приводит к закреплению процесса, поскольку задача решается наилучшим образом.

Хороший пример тому — система IBM Watson®, которая в 2011 году стала победителем в игре Jeopardy!. Система использовала обучение с подкреплением для принятия решений о том, стоит ли пытаться дать ответ (или задать вопрос), какой квадрат выбрать на доске и какую сделать ставку — особенно в случае двойных ставок.

Варианты использования машинного обучения в реальном мире

Вот лишь несколько примеров применения машинного обучения в повседневной жизни:

Распознавание речи: технология, использующая обработку естественного языка (NLP) для записи человеческой речи в виде текста. Также называется «автоматическое распознавание речи» (ASR), «компьютерное распознавание речи» или «преобразование речи в текст». Во многих мобильных устройствах распознавание речи встроено в системы голосового поиска (например, Siri) или программы для переписки.

Обслуживание клиентов: практически повсеместно операторов-людей заменяют на онлайн-чатботов. Они способны ответить на частые вопросы (FAQ) по определенной тематике, например по доставке, или дать персонализированный совет, предложить сопутствующие товары или помочь подобрать размер одежды или обуви. Чатботы полностью перевернули наши представления о взаимодействии с клиентами на сайтах и в социальных сетях. В качестве примеров можно привести виртуальных помощников на сайтах интернет-магазинов, приложения для обмена сообщениями типа Slack и Facebook Messenger, а также задачи, которые обычно выполняют виртуальные и голосовые помощники.

Компьютерное зрение: эта ИИ-технология позволяет компьютерам и системам извлекать осмысленную информацию из цифровых изображений, видеоматериалов и других визуальных данных, а затем на основе этой информации принимать решения. Именно способность к принятию решений и отличает эту технологию от обычного распознавания изображений. В основе компьютерного зрения лежат сверточные нейросети, а область применения этой технологии весьма обширна: от распознавания лиц на фото в социальных сетях до анализа медицинских рентгеновских снимков пациентов и проектирования беспилотных автомобилей.

Модули рекомендаций: алгоритмы ИИ могут проанализировать данные о прошлом поведении покупателей и выявить тенденции, которые помогут повысить эффективность стратегий перекрестных продаж. Благодаря этому сервису покупатели получают дополнительные рекомендации при оформлении заказов в интернет-магазине.

Автоматизация биржевой торговли: платформы высокочастотной торговли на базе ИИ не просто оптимизируют портфели акций, но и совершают тысячи и даже миллионы сделок без малейшего вмешательства человека.

Проблемы машинного обучения

Развитие технологий машинного обучение, несомненно, сильно облегчает нашу жизнь. Однако внедрение машинного обучения на предприятиях породило также и ряд проблем этического характера, связанных с технологиями ИИ. Вот некоторые из них:

Технологическая сингулярность

Несмотря на то, что эта тема активно будоражит умы населения, многие исследователи не видят реальных оснований тому, что уже в ближайшем будущем ИИ станет умнее человека. Это явление иногда называют «сверхразумом», что Ник Бустрём определяет как «интеллект, который многократно превосходит самых выдающихся людей в умственном развитии практически в каждой области: в научно-технической деятельности, житейской мудрости и развитии социальных навыков». Несмотря на то, что появление Сильного ИИ и сверхразума обществу не грозит, эта идея породила ряд интересных вопросов, связанных с использованием автономных систем типа беспилотных автомобилей. Считать, что беспилотные автомобили никогда не попадут в ДТП — утопия, поэтому встает вопрос: кто будет нести ответственность в таких ситуациях? Должны ли мы по-прежнему стремиться к созданию полностью автономных автомобилей, или все же стоит ограничиться интеграцией этой технологии, оставив транспортные средства полуавтономными и отдав безопасность на поруки водителю? Единого ответа на эти вопросы до сих пор нет, но чем стремительнее развиваются инновационные технологии ИИ, тем чаще возникают этические дискуссии такого толка.

Влияние ИИ на рынок труда

Сейчас очень многие опасаются, что искусственный интеллект вытеснит их с рабочих мест, но, возможно, пришло время пересмотреть эти убеждения. Мы видим, что каждая революционная технология порождает сдвиг рыночного спроса в сторону той или иной категории специалистов. Например, если посмотреть на автомобильную промышленность, то многие крупные производители типа GM сейчас переключаются на производство электромобилей, чтобы идти в ногу с экологическими инициативами. Энергетическая отрасль никуда не девается, но теперь она больше нацелена на производство электроэнергии, чем топлива. То же самое касается и искусственного интеллекта: на рынке неизбежно появится спрос на специалистов в других областях. Например, в цене будут люди, способные управлять этими системами в условиях ежедневного роста объемов данных и стремительных перемен. Также ничто не заменит людей при решении более сложных, нестандартных проблем в тех сферах, которых, скорее всего, коснется переквалификация, например обслуживание клиентов. Важным аспектом ИИ и его влияния ИИ на рынок труда будет содействие людям при переходе в эти новые области рыночного спроса.

Конфиденциальность

Как правило, тема конфиденциальности обсуждается в контексте конфиденциальности данных, их защиты и безопасности, и в последние годы регулирующие органы немалого достигли на этом поприще. Так, в 2016 году был разработан закон GDPR, обеспечивающий защиту персональной информации людей в странах Европейского Союза и Европейской экономической зоны. Благодаря этому закону люди получили больше контроля над своими данными. Отдельные штаты США разрабатывают свои правила, например Закон Калифорнии о защите конфиденциальности потребителей (CCPA), требующий от предприятий информировать потребителей о сборе их данных. Этот новый закон заставил компании пересмотреть свои способы хранения и использования персональных данных (PII). Все это привело к тому, что предприятия стали больше вкладывать в безопасность, стремясь устранить все возможные уязвимости и возможности слежки, взлома и кибератак.

Предвзятость и дискриминация

Случаи проявления предвзятости и дискриминации при использовании некоторых ИИ-систем подняли ряд этических вопросов, связанных с использованием искусственного интеллекта. Как защититься от предвзятости и дискриминации, если сами учебные данные могут быть предвзятыми? Хотя обычно компании реализуют автоматизацию с самыми благими намерениями, агентство Reuters (внешняя ссылка) рассказывает о нескольких непредвиденных последствиях внедрения ИИ в процессы найма сотрудников. Так, стремясь автоматизировать и упростить процесс найма, компания Amazon неумышленно фильтровала потенциальных соискателей технических должностей по половому признаку. В конечном счете компании пришлось свернуть проект автоматизации. В свете таких событий Harvard Business Review (внешняя ссылка) поднимает и другие, не менее острые вопросы, касающиеся использования ИИ в процессах трудоустройства. Например, какие данные должно быть разрешено использовать для оценки соискателя должности?

Предвзятость и дискриминация не ограничиваются одним только управлением персоналом. Эти эффекты проявляются и в ряде других областей, начиная от ПО для распознавания лиц и заканчивая алгоритмами социальных сетей.

Чем больше предприятия стали осознавать риски, связанные с ИИ, тем активнее стала подниматься тема этики искусственного интеллекта и человеческих ценностей. Например, в прошлом году генеральный директор IBM Арвинд Кришна сообщил, что IBM прекратила разработку универсальных продуктов для распознавания и анализа лиц. Глава компании подчеркнул, что «IBM выступает решительно против любых технологий (включая технологии распознавания лиц других компаний) для массовой слежки, идентификации по расовому признаку, нарушения основных прав и свобод, а также для любых других целей, не согласующихся с нашими ценностям и Принципами доверия и прозрачности».

Более подробные сведения об этом событии можно найти в нашей публикации в блоге, посвященной политике IBM и отражающей точку зрения компании на «Принцип точного регулирования для контроля экспорта технологий распознавания лиц».

Ответственность

За отсутствием мало-мальски значимых законов, регулирующих разработки в области ИИ и его использование, нет и реального механизма обеспечения этичности ИИ. Сейчас организации стараются соблюдать эти нормы главным образом потому, что неэтичное использование ИИ в итоге отрицательно сказывается на прибыли. Для заполнения этого пробела специалисты по этике и исследователи совместно выработали нравственные нормы, регулирующие создание ИИ-моделей и их распространение в обществе. Но пока они носят только рекомендательный характер, и исследование (внешняя ссылка) (PDF, 984 КБ) показывает, что разобщенная ответственность вкупе с недальновидностью и неспособностью предусмотреть возможные последствия — не очень хороший план по предотвращению ущерба обществу.

Более подробно о позиции IBM в отношении этики использования ИИ можно узнать здесь.

Машинное обучение и IBM Cloud

IBM Watson Machine Learning обеспечивает поддержку на всех этапах жизненного цикла машинного обучения. Воспользуйтесь предложениями, предназначенными для создания моделей машинного обучения там, где хранятся данные, и их развертывания в гибридной мультиоблачной среде.

IBM Watson Machine Learning в составе IBM Cloud Pak for Data помогает специалистам по ИИ и данным ускорить разработку и упростить развертывание ИИ на основе облачной платформы данных и ИИ. IBM Watson Machine Learning Cloud, управляемая услуга в среде IBM Cloud, предлагает самый быстрый способ перехода от экспериментальных моделей к производственному использованию. Для небольших команд, которым требуется масштабировать среды машинного обучения, IBM Watson Machine Learning Server предлагает простую установку в любом частном или общедоступном облаке.

Для того чтобы приступить к работе, зарегистрируйтесь для получения IBMid и создайте учетную запись IBM Cloud.

Источник

Введение в машинное обучение

1.1 Введение

Благодаря машинному обучению программист не обязан писать инструкции, учитывающие все возможные проблемы и содержащие все решения. Вместо этого в компьютер (или отдельную программу) закладывают алгоритм самостоятельного нахождения решений путём комплексного использования статистических данных, из которых выводятся закономерности и на основе которых делаются прогнозы.

Технология машинного обучения на основе анализа данных берёт начало в 1950 году, когда начали разрабатывать первые программы для игры в шашки. За прошедшие десятилетий общий принцип не изменился. Зато благодаря взрывному росту вычислительных мощностей компьютеров многократно усложнились закономерности и прогнозы, создаваемые ими, и расширился круг проблем и задач, решаемых с использованием машинного обучения.

Чтобы запустить процесс машинного обучение, для начала необходимо загрузить в компьютер Датасет(некоторое количество исходных данных), на которых алгоритм будет учиться обрабатывать запросы. Например, могут быть фотографии собак и котов, на которых уже есть метки, обозначающие к кому они относятся. После процесса обучения, программа уже сама сможет распознавать собак и котов на новых изображениях без содержания меток. Процесс обучения продолжается и после выданных прогнозов, чем больше данных мы проанализировали программой, тем более точно она распознает нужные изображения.

Благодаря машинному обучению компьютеры учатся распознавать на фотографиях и рисунках не только лица, но и пейзажи, предметы, текст и цифры. Что касается текста, то и здесь не обойтись без машинного обучения: функция проверки грамматики сейчас присутствует в любом текстовом редакторе и даже в телефонах. Причем учитывается не только написание слов, но и контекст, оттенки смысла и другие тонкие лингвистические аспекты. Более того, уже существует программное обеспечение, способное без участия человека писать новостные статьи (на тему экономики и, к примеру, спорта).

1.2 Типы задач машинного обучения

Все задачи, решаемые с помощью ML, относятся к одной из следующих категорий.

1)Задача регрессии – прогноз на основе выборки объектов с различными признаками. На выходе должно получиться вещественное число (2, 35, 76.454 и др.), к примеру цена квартиры, стоимость ценной бумаги по прошествии полугода, ожидаемый доход магазина на следующий месяц, качество вина при слепом тестировании.

2)Задача классификации – получение категориального ответа на основе набора признаков. Имеет конечное количество ответов (как правило, в формате «да» или «нет»): есть ли на фотографии кот, является ли изображение человеческим лицом, болен ли пациент раком.

3)Задача кластеризации – распределение данных на группы: разделение всех клиентов мобильного оператора по уровню платёжеспособности, отнесение космических объектов к той или иной категории (планета, звёзда, чёрная дыра и т. п.).

4)Задача уменьшения размерности – сведение большого числа признаков к меньшему (обычно 2–3) для удобства их последующей визуализации (например, сжатие данных).

5)Задача выявления аномалий – отделение аномалий от стандартных случаев. На первый взгляд она совпадает с задачей классификации, но есть одно существенное отличие: аномалии – явление редкое, и обучающих примеров, на которых можно натаскать машинно обучающуюся модель на выявление таких объектов, либо исчезающе мало, либо просто нет, поэтому методы классификации здесь не работают. На практике такой задачей является, например, выявление мошеннических действий с банковскими картами.

1.3 Основные виды машинного обучения

Основная масса задач, решаемых при помощи методов машинного обучения, относится к двум разным видам: обучение с учителем (supervised learning) либо без него (unsupervised learning). Однако этим учителем вовсе не обязательно является сам программист, который стоит над компьютером и контролирует каждое действие в программе. «Учитель» в терминах машинного обучения – это само вмешательство человека в процесс обработки информации. В обоих видах обучения машине предоставляются исходные данные, которые ей предстоит проанализировать и найти закономерности. Различие лишь в том, что при обучении с учителем есть ряд гипотез, которые необходимо опровергнуть или подтвердить. Эту разницу легко понять на примерах.

Машинное обучение с учителем

Предположим, в нашем распоряжении оказались сведения о десяти тысячах московских квартир: площадь, этаж, район, наличие или отсутствие парковки у дома, расстояние от метро, цена квартиры и т. п. Нам необходимо создать модель, предсказывающую рыночную стоимость квартиры по её параметрам. Это идеальный пример машинного обучения с учителем: у нас есть исходные данные (количество квартир и их свойства, которые называются признаками) и готовый ответ по каждой из квартир – её стоимость. Программе предстоит решить задачу регрессии.

Ещё пример из практики: подтвердить или опровергнуть наличие рака у пациента, зная все его медицинские показатели. Выяснить, является ли входящее письмо спамом, проанализировав его текст. Это всё задачи на классификацию.

Машинное обучение без учителя

В случае обучения без учителя, когда готовых «правильных ответов» системе не предоставлено, всё обстоит ещё интереснее. Например, у нас есть информация о весе и росте какого-то количества людей, и эти данные нужно распределить по трём группам, для каждой из которых предстоит пошить рубашки подходящих размеров. Это задача кластеризации. В этом случае предстоит разделить все данные на 3 кластера (но, как правило, такого строгого и единственно возможного деления нет).

Если взять другую ситуацию, когда каждый из объектов в выборке обладает сотней различных признаков, то основной трудностью будет графическое отображение такой выборки. Поэтому количество признаков уменьшают до двух или трёх, и становится возможным визуализировать их на плоскости или в 3D. Это – задача уменьшения размерности.

1.4 Основные алгоритмы моделей машинного обучения

1. Дерево принятия решений

Это метод поддержки принятия решений, основанный на использовании древовидного графа: модели принятия решений, которая учитывает их потенциальные последствия (с расчётом вероятности наступления того или иного события), эффективность, ресурсозатратность.

Для бизнес-процессов это дерево складывается из минимального числа вопросов, предполагающих однозначный ответ — «да» или «нет». Последовательно дав ответы на все эти вопросы, мы приходим к правильному выбору. Методологические преимущества дерева принятия решений – в том, что оно структурирует и систематизирует проблему, а итоговое решение принимается на основе логических выводов.

2. Наивная байесовская классификация

Наивные байесовские классификаторы относятся к семейству простых вероятностных классификаторов и берут начало из теоремы Байеса, которая применительно к данному случаю рассматривает функции как независимые (это называется строгим, или наивным, предположением). На практике используется в следующих областях машинного обучения:

Всем, кто хоть немного изучал статистику, знакомо понятие линейной регрессии. К вариантам её реализации относятся и наименьшие квадраты. Обычно с помощью линейной регрессии решают задачи по подгонке прямой, которая проходит через множество точек. Вот как это делается с помощью метода наименьших квадратов: провести прямую, измерить расстояние от неё до каждой из точек (точки и линию соединяют вертикальными отрезками), получившуюся сумму перенести наверх. В результате та кривая, в которой сумма расстояний будет наименьшей, и есть искомая (эта линия пройдёт через точки с нормально распределённым отклонением от истинного значения).

Линейная функция обычно используется при подборе данных для машинного обучения, а метод наименьших квадратов – для сведения к минимуму погрешностей путем создания метрики ошибок.

4. Логистическая регрессия

Логистическая регрессия – это способ определения зависимости между переменными, одна из которых категориально зависима, а другие независимы. Для этого применяется логистическая функция (аккумулятивное логистическое распределение). Практическое значение логистической регрессии заключается в том, что она является мощным статистическим методом предсказания событий, который включает в себя одну или несколько независимых переменных. Это востребовано в следующих ситуациях:

Это целый набор алгоритмов, необходимых для решения задач на классификацию и регрессионный анализ. Исходя из того что объект, находящийся в N-мерном пространстве, относится к одному из двух классов, метод опорных векторов строит гиперплоскость с мерностью (N – 1), чтобы все объекты оказались в одной из двух групп. На бумаге это можно изобразить так: есть точки двух разных видов, и их можно линейно разделить. Кроме сепарации точек, данный метод генерирует гиперплоскость таким образом, чтобы она была максимально удалена от самой близкой точки каждой группы.

SVM и его модификации помогают решать такие сложные задачи машинного обучения, как сплайсинг ДНК, определение пола человека по фотографии, вывод рекламных баннеров на сайты.

Он базируется на алгоритмах машинного обучения, генерирующих множество классификаторов и разделяющих все объекты из вновь поступающих данных на основе их усреднения или итогов голосования. Изначально метод ансамблей был частным случаем байесовского усреднения, но затем усложнился и оброс дополнительными алгоритмами:

Кластеризация заключается в распределении множества объектов по категориям так, чтобы в каждой категории – кластере – оказались наиболее схожие между собой элементы.

Кластеризировать объекты можно по разным алгоритмам. Чаще всего используют следующие:

8. Метод главных компонент (PCA)

Метод главных компонент, или PCA, представляет собой статистическую операцию по ортогональному преобразованию, которая имеет своей целью перевод наблюдений за переменными, которые могут быть как-то взаимосвязаны между собой, в набор главных компонент – значений, которые линейно не коррелированы.

Практические задачи, в которых применяется PCA, – визуализация и большинство процедур сжатия, упрощения, минимизации данных для того, чтобы облегчить процесс обучения. Однако метод главных компонент не годится для ситуаций, когда исходные данные слабо упорядочены (то есть все компоненты метода характеризуются высокой дисперсией). Так что его применимость определяется тем, насколько хорошо изучена и описана предметная область.

9. Сингулярное разложение

В линейной алгебре сингулярное разложение, или SVD, определяется как разложение прямоугольной матрицы, состоящей из комплексных или вещественных чисел. Так, матрицу M размерностью [m*n] можно разложить таким образом, что M = UΣV, где U и V будут унитарными матрицами, а Σ – диагональной.

Одним из частных случаев сингулярного разложения является метод главных компонент. Самые первые технологии компьютерного зрения разрабатывались на основе SVD и PCA и работали следующим образом: вначале лица (или другие паттерны, которые предстояло найти) представляли в виде суммы базисных компонент, затем уменьшали их размерность, после чего производили их сопоставление с изображениями из выборки. Современные алгоритмы сингулярного разложения в машинном обучении, конечно, значительно сложнее и изощрённее, чем их предшественники, но суть их в целом нем изменилась.

10. Анализ независимых компонент (ICA)

Это один из статистических методов, который выявляет скрытые факторы, оказывающие влияние на случайные величины, сигналы и пр. ICA формирует порождающую модель для баз многофакторных данных. Переменные в модели содержат некоторые скрытые переменные, причем нет никакой информации о правилах их смешивания. Эти скрытые переменные являются независимыми компонентами выборки и считаются негауссовскими сигналами.

В отличие от анализа главных компонент, который связан с данным методом, анализ независимых компонент более эффективен, особенно в тех случаях, когда классические подходы оказываются бессильны. Он обнаруживает скрытые причины явлений и благодаря этому нашёл широкое применение в самых различных областях – от астрономии и медицины до распознавания речи, автоматического тестирования и анализа динамики финансовых показателей.

1.5 Примеры применения в реальной жизни

Пример 1. Диагностика заболеваний

Пациенты в данном случае являются объектами, а признаками – все наблюдающиеся у них симптомы, анамнез, результаты анализов, уже предпринятые лечебные меры (фактически вся история болезни, формализованная и разбитая на отдельные критерии). Некоторые признаки – пол, наличие или отсутствие головной боли, кашля, сыпи и иные – рассматриваются как бинарные. Оценка тяжести состояния (крайне тяжёлое, средней тяжести и др.) является порядковым признаком, а многие другие – количественными: объём лекарственного препарата, уровень гемоглобина в крови, показатели артериального давления и пульса, возраст, вес. Собрав информацию о состоянии пациента, содержащую много таких признаков, можно загрузить её в компьютер и с помощью программы, способной к машинному обучению, решить следующие задачи:

Пример 2. Поиск мест залегания полезных ископаемых

В роли признаков здесь выступают сведения, добытые при помощи геологической разведки: наличие на территории местности каких-либо пород (и это будет признаком бинарного типа), их физические и химические свойства (которые раскладываются на ряд количественных и качественных признаков).

Для обучающей выборки берутся 2 вида прецедентов: районы, где точно присутствуют месторождения полезных ископаемых, и районы с похожими характеристиками, где эти ископаемые не были обнаружены. Но добыча редких полезных ископаемых имеет свою специфику: во многих случаях количество признаков значительно превышает число объектов, и методы традиционной статистики плохо подходят для таких ситуаций. Поэтому при машинном обучении акцент делается на обнаружение закономерностей в уже собранном массиве данных. Для этого определяются небольшие и наиболее информативные совокупности признаков, которые максимально показательны для ответа на вопрос исследования – есть в указанной местности то или иное ископаемое или нет. Можно провести аналогию с медициной: у месторождений тоже можно выявить свои синдромы. Ценность применения машинного обучения в этой области заключается в том, что полученные результаты не только носят практический характер, но и представляют серьёзный научный интерес для геологов и геофизиков.

Пример 3. Оценка надёжности и платёжеспособности кандидатов на получение кредитов

С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.

Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).

Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».

Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *