45 самых популярных вопросов и ответов на собеседовании по машинному обучению

Хотя машинное обучение и искусственный интеллект уже включены в учебные программы по компьютерной инженерии в большинстве инженерных колледжей, возможности машинного обучения и искусственного интеллекта далеко переросли область компьютерного мира. Недавние разработки в обеих областях, особенно в ML, привели к резкому росту спроса на экспертов по ML в большинстве секторов. С этой целью мы составили следующий список вопросов и ответов на собеседование по машинному обучению. Мы включили основные концепции машинного обучения , расширенные вопросы на основе сценариев, а также базовые вопросы собеседования по машинному обучению для новичков.

Q1: Что вы подразумеваете под перекрестной проверкой?

Как следует из названия, перекрестная проверка – это метод проверки того, может ли данная система машинного обучения точно работать с наборами данных, отличными от того, который использовался для ее обучения. Обычно программисты разбивают свой набор данных на два разных набора для перекрестной проверки:

Данные для обучения – используются для обучения системы.

Данные тестирования – используются для тестирования и проверки системы.

Q2: Как выбрать метрики?

Метрики – это параметры, которые помогают оценить модель / систему машинного обучения. Выбор показателей зависит от множества факторов, таких как:

Это модель классификации или регрессии?
Насколько разнообразны целевые переменные?

MAE, MAPE, RMSE, MSE для регрессии и Accuracy, Recall, Precision и f1 для классификации являются одними из наиболее часто используемых показателей.

Q3: Что такое ложные срабатывания и ложноотрицания?

Ложные срабатывания , как ложная тревога, когда модель предполагает наличие состояния , даже если она не существует. Ложный отрицательный результат представляет собой полную противоположность описанной выше ситуации , когда модель предполагает отсутствие состояния , когда он на самом деле присутствует.

Q4: Объясните термины «Отзыв» и «Точность»:

И отзыв, и точность являются точными индикаторами модели, но имеют особое значение. Если отзыв фокусируется на всех релевантных результатах, точно классифицированных по модели, точность помогает вам определить процент полученных результатов, которые имеют прямое отношение к вам.

Q5: Различайте обучение с учителем и обучение без учителя.

В обучении с учителем вы предоставляете модели ключ для ответа на вопросы, которые она должна решить, чтобы модель могла проверить свои результаты и соответствующим образом улучшить свой процесс – например, корреляцию между возрастом и ростом группы детей.

В случае обучения без учителя правильные результаты неизвестны, поэтому модели необходимо сделать выводы и найти закономерности из заданного набора данных. Например, объединение клиентов с похожей историей покупок.

Q6: Как проверить модель прогнозирования на основе множественной регрессии?

Чаще всего для этого используется перекрестная проверка, как описано в предыдущем вопросе. Но вы также можете использовать метод скорректированного R-квадрата . В этом методе генерируется значение r-квадрата, которое определяет соотношение между дисперсией, присутствующей в зависимых и независимых переменных набора данных.

Таким образом, чем выше значение r-квадрат, тем точнее модель.

Q7: Что такое полная форма НЛП?

NLP – это сокращение от Natural Language Processing. Это дисциплина искусственного интеллекта, которая помогает машинам понимать людей и взаимодействовать с ними в более разговорной манере.

Q8: Что такое случайный лес?

Случайные леса – это методика обучения, основанная на концепции деревьев решений. Множественные деревья решений создаются путем случайного выбора подмножества переменных на каждом шаге дерева решений, которое объединяется в случайный лес. Затем выбирается режим всех прогнозов в результате с наименьшей вероятностью ошибок.

Q9: Какая модель лучше: случайные леса или машина опорных векторов? Обосновать ответ.

Когда дело доходит до алгоритмов машинного обучения, на первый план выходит теория отсутствия бесплатного обеда. Ни один алгоритм не превосходит другой в абсолютном выражении и имеет ряд компромиссов. В зависимости от варианта использования мы предпочитаем одно другому.

Но в целом случайные леса считаются более совершенной моделью по сравнению с SVM по следующим причинам:

Вы можете определить важность функции с помощью случайных лесов, но не с помощью SVM.
Случайные леса использовать проще, чем SVM, и первый также работает быстрее.
Случайные леса оказались более масштабируемыми и менее требовательными к памяти, чем SVM для мультиклассовых классификаций.
Меньшая вероятность переобучения в целом.
Легко настроить гиперпараметры.

Q10: Объясните PCA и его использование:

PCA расшифровывается как «Анализ главных компонентов». Он включает в себя упрощение данных за счет уменьшения размерности набора данных – например, преобразование трехмерного изображения в двухмерное – без изменения исходных переменных модели. PCA – это широко используемый метод сжатия, используемый для лучшей визуализации и обобщения данных, уменьшения требуемой памяти и ускорения процесса.

Q11: Каковы недостатки наивного Байеса? Как его можно улучшить?

Самый большой недостаток Наивного Байеса заключается в его предположении, что характеристики набора данных полностью не коррелируют друг с другом, что бывает редко. Единственный способ улучшить производительность Наивного Байеса – это фактически удалить корреляции между функциями и сделать процесс оптимальным для Наивного Байеса.

Q12: Объясните недостатки линейной модели?

Ниже приведены основные недостатки линейной модели:

Линейная модель основана на слишком большом количестве теоретических предположений, которые в большинстве случаев не соответствуют действительности.
Дискретные или бинарные результаты нельзя получить с помощью линейной модели.
Высокая негибкость.

В13: Несколько маленьких деревьев решений лучше, чем одно большое? Обоснуйте.

Наличие нескольких небольших деревьев решений – это то же самое, что использование модели случайного леса, которая, как известно, является более точной (низкий уровень смещения) и менее подвержена проблеме переобучения (высокая дисперсия). Итак, да, иметь несколько маленьких деревьев решений было бы предпочтительнее, чем иметь одно большое.

В14: Что делает среднеквадратическую ошибку плохим показателем производительности модели?

MSE или среднеквадратическая ошибка основана на связывании значительно более высокого веса с большими ошибками, что делает больший акцент на более широких отклонениях. Однако это хорошо работает в большинстве алгоритмов, чтобы минимизировать ошибку модели и стоимость.

Иногда лучшим вариантом для MSE является MAE (средняя абсолютная ошибка) или MAPE (средняя абсолютная ошибка в процентах), что устраняет вышеуказанный недостаток и легко интерпретируется.

Q15. На каких предположениях основана линейная регрессия?

Линейная регрессия обычно основана на следующем ключевом предположении:

Данные выборки должны представлять всю генеральную совокупность .
Входная и выходная переменные должны иметь линейную зависимость.
Входная переменная должна демонстрировать гомоскедастичность.
Нет мультиколлинеарности среди независимых / входных переменных.
Нормальное распределение выходной переменной для любого значения входной переменной.
В выходной / зависимой переменной нет серийной или автокорреляции.

Q16: Что такое мультиколлинеарность?

Когда две независимые переменные показывают высокую корреляцию друг с другом, говорят, что произошла мультиколлинеарность. Факторы инфляции дисперсии (VIF) могут использоваться для обнаружения мультиколлинеарности между независимыми переменными. Обычно значение VIF более 4 является признаком мультиколлинеарности.

В17: Почему следует или не следует выполнять уменьшение размерности перед установкой SVM?

Для оптимального результата модели настоятельно рекомендуется уменьшение размерности перед подгонкой SVM, когда количество функций больше, чем количество наблюдений.

В18: Различить классификацию и регрессию?

Классификация , как следует из названия, классифицирует или разделяет данные на заранее определенные категории. Полученные результаты носят дискретный характер. Например, классификация игроков в крикет на категории боулеров и игроков с битой. Некоторые бизнес-примеры:

Будут ли клиенты открывать электронную почту или нет?
Будет ли клиент возвращать платежи по кредитной карте или по умолчанию?
Является ли страховое требование мошенничеством или подлинным заявлением?

Регрессия , с другой стороны, имеет дело с непрерывными данными, такими как определение температуры объекта в определенный момент дня. В этом случае мы прогнозируем числовое значение / непрерывное число. Некоторые бизнес-примеры:

Прогнозирование доходов компании
Шаги в торговом центре
Общие розничные расходы разных клиентов

В19: Объясните разницу между KNN и кластеризацией k-средних.

KNN расшифровывается как K-Nearest Neighbours, который представляет собой контролируемый метод обучения, требующий помеченных данных, которые затем используются для классификации точек на основе их расстояния от ближайшей точки.

Кластеризация K-средних – это алгоритм машинного обучения без учителя, в котором предоставляется модель с немаркированными данными, а затем алгоритм группирует точки наблюдения / данных на основе сходства, измеренного с использованием среднего значения расстояний между разными точками.

В20: Как убедиться, что ваша модель не переоснащается?

Основные причины, которые вызывают переоснащение модели, – сложность самой модели и количество шума в используемых переменных. Методы перекрестной проверки, такие как K-складки, могут использоваться для ограничения переобучения в модели. Методы регуляризации могут использоваться для наказания параметров, которые могут вызывать переобучение.

Q21: Объясните ансамблевое обучение.

По сути, ансамблевое обучение – это сбор и агрегирование нескольких моделей с использованием самонастраиваемых выборок, обычно деревьев решений (классификаторов или регрессоров), для получения более точных результатов с меньшим смещением и дисперсией. Модели ансамблевого обучения можно создавать последовательно или параллельно.

В Bagging несколько моделей создаются параллельно, а окончательные результаты представляют собой агрегированные результаты всех этих моделей, основанные на средних значениях или голосовании большинства. Самый популярный среди таких методов – Random Forest.

В Boosting параллельно создается большое количество последовательных моделей, и каждая последующая модель учится на слабых сторонах предыдущей модели для повышения конечной точности. GBM (Gradient Boosting Method) и Xgboost – два самых популярных метода повышения.

Q22: Чем машинное обучение отличается от глубокого обучения?

Машинное обучение фокусируется на анализе и изучении этих данных на основе функций, вводимых в модель, и использовании этих данных для принятия более эффективных решений.

Глубокое обучение – это, по сути, подмножество машинного обучения, вдохновленное человеческим мозгом. Он фокусируется на извлечении признаков путем вывода информации из нескольких слоев, где каждый слой передает информацию каждому слою для окончательного результата.

Q23: Что такое смещение выборки?

Когда конкретная группа или тип данных выбирается в наборе данных чаще, это приводит к статистической ошибке, называемой смещением выбора. Если систематическая ошибка выбора не обнаружена и не устранена, она может привести к неточным конечным результатам.

В24: Объясните индуктивное и дедуктивное рассуждение:

Индуктивное рассуждение включает анализ имеющихся наблюдений, чтобы сделать вывод. Дедуктивное рассуждение, напротив, использует известные выводы или предпосылки для формирования наблюдений. Вот хороший пример.

В25: Определите разницу между примесью Джини и энтропией в дереве решений.

Примесь Джини и Энтропия – это метрики, которые могут помочь разделить дерево решений. Первый измеряет вероятность правильной классификации случайной выборки, если вы случайным образом выбираете метку в ветке.

Энтропия – это мера неопределенности вашей модели. Энтропия самая низкая по направлению к листовому узлу. Прирост информации – это разница энтропий, наблюдаемая между набором данных до и после разделения атрибута. Он имеет максимальное значение около листового узла. Разница между энтропиями может помочь понять уровень неопределенности в дереве решений.

В26. Что такое выбросы и как их обнаружить?

Выбросы – это те точки данных, значение которых значительно отличается от среднего значения набора данных. Коробчатая диаграмма, линейные модели и модели на основе близости часто используются для отбора выбросов в наборе данных. Для большинства моделей настоятельно рекомендуется обрабатывать выбросы путем их ограничения или исключения из набора данных.

В27. Что такое A / B-тестирование?

A / B-тестирование – это тестирование с двумя переменными, выполняемое в рандомизированных экспериментах для определения того, какая из двух выбранных моделей лучше подходит для данного набора данных.

Представьте, что у вас есть две модели рекомендаций по фильмам, A и B. Выполнение A / B-тестирования может помочь нам определить, какая из этих двух моделей даст лучшую рекомендацию пользователю.

В28. Объясните кластерную выборку:

Кластерная выборка – это метод группировки, используемый для совокупности, в которой есть отдельные подмножества однородных элементов. Кластерная выборка, обычно используемая для маркетинговых исследований, делит данный набор данных на более мелкие группы и случайным образом выбирает выборку из групп.

В29. Какие библиотеки Python обычно используются в машинном обучении?

Pandas, NumPy, SciPy, Seaborn, Sklearn и т. Д. Входят в пятерку наиболее часто используемых библиотек для анализа данных и научных вычислений, необходимых для моделей машинного обучения.

Q30. Какой у вас опыт работы с инструментами для работы с большими данными, такими как Spark, которые используются в машинном обучении?

На уровне предприятия Apache Spark играет важную роль в масштабировании моделей машин и обеспечивает аналитику больших данных в реальном времени.

Spark – один из наиболее часто используемых инструментов машинного обучения для работы с большими данными, и он, вероятно, поднимется по крайней мере в некоторых из вопросов собеседования по машинному обучению для должностей, связанных с обработкой больших данных. Это обычная часть вопросов на собеседовании по машинному обучению для профессионалов с некоторым опытом.

Всегда честно задавайте вопросы на собеседовании по машинному обучению. Поэтому убедитесь, что у вас есть некоторый практический опыт использования подобных инструментов, прежде чем пытаться задавать вопросы на собеседовании по ML.

В31. Как бы вы поступили с отсутствующими данными в наборе данных?

Еще один гипотетический вопрос, который является регулярным в сеансе вопросов и ответов на собеседование по машинному обучению. Большинство работодателей включают эту ситуацию в вопросы собеседования по машинному обучению для новичков, потому что им необходимо понять, достаточно ли у человека практических знаний для решения таких повсеместных проблем повседневной работы.

Ваш ответ на такой вопрос собеседования с ML должен заключаться в том, что вы можете заменить отсутствующее значение другим значением, используя меру центральной тенденции, такую как среднее значение, медиана или мода. Чаще всего используется следующий подход:

Непрерывные переменные: заменить отсутствующие на среднее значение
Порядковые переменные: замените отсутствующие на медиану
Категориальные переменные: заменить отсутствующие на режим

В случае, если у нас очень небольшая доля отсутствующих значений в большом наборе данных, мы также можем удалить их. dropna () из библиотеки Pandas.

В32. Напишите псевдокод для любого алгоритма.

Самым важным качеством, которое интервьюеры пытаются выяснить в своих вопросах по машинному обучению, является понимание человеком логики машинного обучения. Написание псевдокода алгоритма требует интуитивного понимания фундаментальных концепций и сильных навыков логического мышления. Поэтому всегда выбирайте алгоритм, в котором вы хорошо разбираетесь.

Один из самых простых алгоритмов – это Decision Tree, где мы можем разделить данные в каждом узле, чтобы минимизировать индекс MSE или GINI.

В33. Какую последнюю книгу или исследовательскую работу вы прочитали по машинному обучению?

Интервьюер попытается оценить, действительно ли у вас есть интерес к этой области, задав такие вопросы на собеседовании по машинному обучению. Вы всегда должны быть начитанными и в курсе последних разработок в области машинного обучения, читая опубликованные исследовательские работы и научные журналы.

В34. Какая модель ML вам нравится больше всего?

Хотя интервьюер может сначала попросить вас только назвать вашу любимую модель машинного обучения, есть большая вероятность, что у него появятся дополнительные вопросы по выбранной вами модели. Поэтому не забудьте назвать достаточно простую модель машинного обучения, которую вы хорошо знаете и понимаете.

И, пожалуйста, помните о принципе отказа от бесплатного обеда, описанном в Q9! Ни одна модель не может быть лучше в каждом сценарии. У каждой модели есть свои плюсы и минусы, и мы выбираем подходящую модель, исходя из бизнес-кейса и применимых компромиссов.

В35. Чем интеллектуальный анализ данных отличается от машинного обучения?

Интеллектуальный анализ данных – это дисциплина, которая занимается извлечением данных из не уточненных источников, чтобы их можно было проанализировать и изучить для получения значимых закономерностей.

Машинное обучение фокусируется на разработке алгоритмов и методологий, которые могут помочь машинам учиться и развиваться самостоятельно.

В36. Назовите жизненные этапы разработки модели в проекте машинного обучения.

Разработка модели машинного обучения проходит в следующие этапы:

Определить бизнес-задачу: понять бизнес-цели и преобразовать задачу ИТ-аналитики
Конструирование данных: определение необходимых источников данных, извлечение и агрегирование данных на необходимом уровне.
Исследовательский анализ: понимание данных, проверка переменных на наличие ошибок, выбросов и пропущенных значений. Определите взаимосвязь между различными типами переменных. Проверьте предположения.
Подготовка данных: исключения, преобразование типов, обработка выбросов, обработка пропущенных значений. Создайте новые гипотетически релевантные переменные, например max, min, sum, change, ratio. Группирование переменных, создание фиктивных переменных и т. Д.
Разработка функций: Избегайте мультиколлинеарности и оптимизируйте сложность модели за счет сокращения количества входных переменных – кластера переменных, корреляции, факторного анализа, RFE и т. Д.
Разделение данных: разделите данные на обучающую и тестовую выборки.
Построение модели: подгонка, проверка точности, перекрестная проверка и настройка модели с помощью параметров и гиперпараметров.
Тестирование модели: проверьте модель на тестовом образце, запустите диагностику и при необходимости повторите модель.
Реализация модели: Подготовьте окончательные результаты модели – представьте модель. Определите ограничения модели. Реализуйте модель (преобразование решения машинного обучения в рабочую среду).
Отслеживание производительности: периодически отслеживайте производительность модели и обновляйте ее по мере необходимости. В условиях развивающейся бизнес-среды производительность любой модели машинного обучения может со временем ухудшиться.

В37. Назовите несколько реальных приложений алгоритмов машинного обучения:

Алгоритмы машинного обучения находят широкое применение в следующих секторах:

Биоинформатика
Робототехника, автоматизация процессов
Обработка естественного языка
Анализ настроений
Обнаружение мошенничества
Системы распознавания лица и голоса
Борьба с обмыванием денег

В38. Объясните нейронные сети.

Вы можете ожидать вопроса о нейронных сетях, когда интервьюер перейдет от вопросов и ответов к базовому и промежуточному машинному обучению. Нейронная сеть – это продвинутая дисциплина машинного обучения, которая показала замечательные результаты благодаря повышенной адаптивности и гибкости.

Нейронная сеть представляет собой тип ML алгоритма, который идентифицирует, лежащие в основе скрытых моделей & отношений в наборе данных с помощью процесса, который вдохновлен действием работает человеческий мозг.

Это недетерминированный алгоритм без прочной математической основы, который можно грубо сравнить с крупномасштабными вычислениями методом проб и ошибок. Эти модели очень хорошо адаптируются к изменениям входных данных; следовательно, получение высокоточных результатов без явного программирования. (Вы также можете снова обратиться к Qn 22.)

В39. Машинное обучение - это еще одно название искусственного интеллекта?

Поначалу это может показаться подвохом, но ответ прост: нет, машинное обучение и искусственный интеллект – не одно и то же. ?? Хотя оба они сосредоточены на том, чтобы сделать машины более интеллектуальными и способными делать то, что могут делать люди, машинное обучение на самом деле является подмножеством ИИ, которое уделяет особое внимание разработке методологий обучения для машин.

Принимая во внимание, что ИИ шире и может включать в себя другое оборудование и инженерные элементы для создания окончательного решения. Например, механизм рекомендаций Netflix с поддержкой AI – это преимущественно решение для машинного обучения, чего нельзя сказать об автономном беспилотном автомобиле.

Подробнее: AI VS ML (основные отличия)

В40. Что такое хеш-таблица?

Хэш – таблица представляет собой организован листинг элементов данных, где каждый элемент в структуре имеет уникальное значение индекса своих собственных. Это позволяет хэш-таблицам выполнять операции поиска и вставки данных намного быстрее, поскольку элементы данных хранятся в однородной ассоциации друг с другом.

Чтобы узнать больше, посмотрите это.

В41. Какими способами можно уменьшить размерность набора данных?

Снижения размерности можно добиться следующими способами:

Факторный анализ
Анализ главных компонентов
Isomap
Автокодирование
Полуопределенное вложение

В42. Определите счет F1.

Оценка F1 – это статистическая оценка, основанная на показателях производительности. Это средневзвешенное значение значений отзыва и точности модели. Он в основном используется для сравнения производительности двух алгоритмов машинного обучения в общем наборе данных.

В43. Как обрезать дерево решений?

Сокращение включает замену узлов дерева решений сверху вниз или снизу вверх. Это очень полезно для повышения точности дерева решений, а также для уменьшения его сложности и переобучения.

Как правило, дерево растет до тех пор, пока конечные узлы не получат небольшую выборку, а затем обрезаются, чтобы удалить узлы, которые не добавляют дополнительной точности или информации. Цель состоит в том, чтобы уменьшить размер дерева, не влияя на точность, измеряемую перекрестной проверкой. Для обрезки деревьев решений используются два основных подхода:

На основе ошибок
Стоимость зависит от сложности

Q44: Как бы вы объяснили машинное обучение неспециалисту?

Такие вопросы важны для демонстрации вашей способности эффективно общаться с заинтересованными сторонами бизнеса и клиентами, которые не обязательно имеют технический опыт. Вы должны ответить на этот вопрос своими словами, исходя из общего понимания предмета.

«Проще говоря, машинное обучение состоит из набора методологий, которые позволяют компьютерам / машинам автоматически учиться на прошлых данных и повышать точность без явного программирования.

Это включает в себя процесс анализа данных, выявления скрытых закономерностей, извлечения уроков из них и последующего определения или прогноза результата без каких-либо вводных программ на основе правил».

В45. Что вас больше всего интересует в ML?

На этот вопрос вы должны ответить, внимательно изучив свое понимание машинного обучения. Но если ваше собеседование запланировано на несколько минут и требует быстрого ответа, попробуйте: «Машинное обучение – это наделение людей способностью, которую природа только наделила людьми: обучением. Машинное обучение может помочь нам сделать машины более человечными. Что еще более важно, я действительно хочу быть частью революции AI ML, которая оказывает очень глубокое влияние на все сферы нашей жизни. Я верю, что с моим большим интересом и навыками я действительно могу внести значительный вклад в то же самое».

Помимо вышеперечисленных вопросов на собеседовании по машинному обучению, обязательно прочтите последние новости и обновления, происходящие в мире машинного обучения. Всего наилучшего!