Словарный запас: МАШИННОЕ ОБУЧЕНИЕ

Машинное обучение планируют использовать для обнаружения потенциальных преступников в Армии США и подсчёта лайков, которые может получить селфи. О важнейшей тенденции анализа больших и не очень данных Strelka Magazine рассказал призёр международных конкурсов по машинному обучению.

ЧТО НАПИСАНО В СЛОВАРЕ

Теория обучения машин (machine learning, машинное обучение) находится на стыке прикладной статистики, численных методов оптимизации, дискретного анализа и за последние пятьдесят лет оформилась в самостоятельную математическую дисциплину. Методы машинного обучения составляют основу ещё более молодой дисциплины — интеллектуального анализа данных. (machinelearning.ru).

ЧТО ГОВОРЯТ ЭКСПЕРТЫ

Влад Миронов, выпускник ВМК МГУ

Машинное обучение — это набор инструментов, которые используют для анализа данных. Не важно, много их или мало, big data это или не big data (кстати, никто толком не может определить, где начинается big), просто у нас есть данные, и мы хотим вывести из них закономерность.

Например, с одной стороны, есть информация о темпах экономического роста, изменении численности населения, его социальной активности, а с другой — мы можем посмотреть, как за этот промежуток времени менялись курсы валют. Гипотетически мы можем найти между ними закономерность и составить алгоритм, который будет предсказывать будущие колебания на бирже, основываясь на том, как определённые факторы влияют на валюту. Но практически сделать это очень сложно. Потому что нельзя судить о кризисе, имея данные только за пять лет, когда кризиса не было. Для этого должно быть гораздо больше информации, и для её обработки нужны мощности, сравнимые с небольшим кластером Google. Биржевыми изысканиями занимаются только очень крупные компании, у которых есть такие ресурсы. Как правило, специалисты по машинному обучению решают более прикладные задачи.

Например, недавно завершился организованный ЦЕРН конкурс, во время которого мы пытались вычленить из общего потока проходящих в адронном коллайдере реакций определённый тип распада частиц (он называется τ → μμμ, когда частица меньше атома распадается ещё на три элемента). В коллайдере стоит огромное количество датчиков — все они собирают данные сталкивающихся элементов: скорость, массу, энергию, углы, под которыми происходят столкновения. Учёные предположили, что при определённых условиях такая реакция может происходить, они симулировали эти столкновения в идеальных условиях, и им нужен был алгоритм, который вычленял бы τ → μμμ среди шума адронного коллайдера, где тысячи частиц сталкиваются каждую секунду.

Мы сравнивали показатели тех случаев, когда происходило искомое столкновение, и пытались найти закономерности и отличия от других случаев. Звучит это довольно просто, но несколько тысяч долларов победитель конкурса получает не просто так. Программист постоянно уточняет алгоритм, в данных возможны ошибки, которые надо вручную находить и вычленять. При этом не всегда надо думать в рамках машинного обучения, иногда конкурсы требуют знаний в смежных областях. В этом конкурсе выйти в призёры позволили знания из школьной физики. Я всё-таки прочитал мануал, из которого стало ясно, что проще всего найти наш распад по массе частицы. И мы догадались, как вычислить эту массу, по остальным показателям датчиков.

Инструментов настройки очень много, и каждый конкурс сильно отличается от предыдущего. Классификация вроде рост-падение курсов, нужное-ненужное столкновение — это самый распространённый вид задачи для машинного обучения. Есть и другие типы задач. Например, когда при превышении скорости автомобили фотографирует камера, штрафы приходят владельцам, потому что символы с номеров определяет компьютер.

В принципе, алгоритмы машинного обучения можно использовать где угодно. Так, если известны национальность, уровень образования и какие-то привычки объекта, то можно не только довольно точно предложить, где он будет вечером в пятницу, но и кодовое слово его банковского счёта.

Машинное обучение — это и одна из предпосылок для создания искусственного интеллекта. В связи с этим возникает вопрос о необходимости контроля этих алгоритмов. Именно поэтому Илон Маск, Билл Гейтс и Стивен Хокинг обсуждают создание международной организации, которая будет контролировать исследования в области искусственного интеллекта. Ну а первые технологии в этой сфере уже есть — нечитаемые капчи, защищающие файлы от скачивания. Они такие корявые именно для того, чтобы их не прочитали роботы.

ПРИМЕРЫ УПОТРЕБЛЕНИЯ

ТАК ГОВОРИТЬ ПРАВИЛЬНО

«Американские исследователи, работающие по заказу министерства обороны США, предложили использовать машинное обучение для выявления среди служащих Армии США потенциальных военных преступников». («Комсомольская правда»)

ТАК ГОВОРИТЬ НЕПРАВИЛЬНО

«Не для всех очевидно, чем отличается написание алгоритма вручную от именно машинного обучения. Одно из отличий в „итерационном“ обучении, в том, что машина переобучаема: если мы загружаем в неё новые данные, она сама сможет уточнить систему анализа. Обычный алгоритм так не может». (Влад Миронов)