6 міфів про Data Science. Спростовує Lead Data Scientist в Quarks

Чим відрізняється Data Scientist від Data Engineer, чому цю технологію використовували заради піару, а суть роботи спеціаліста з Data Science — не в побудові прогнозних моделей. А також чому складні моделі та багато даних — не завжди добре. Сергій Мілантьєв, Lead Data Scientist в Quarks, партнерській компанії Genesis, спростував найпоширеніші міфи в цій сфері.

> Міф № 1. Data Analysts, Data Engineers і Data Scientists — одне й те саме.

> Міф № 2. Data Science — хайп для підняття інвестицій. Насправді ж це статистика, яку загорнули в модну обгортку.

> Міф № 3. Для роботи в Data Science потрібні специфічні математичні знання.

> Міф № 4. Better call Data Scientist. Побудова прогнозної моделі — головне завдання Data Scientist.

> Міф № 5. Чим більше даних, тим продуктивніша модель.

> Міф № 6. Чим складніша модель, тим краще результат.

МІФ №1

Data Analysts, Data Engineers і Data Scientists — одне й те саме.

Якщо маркетолога від PHP-розробника відрізнити легко, то ці три позиції — досить схожі між собою. Іноді між ними справді немає чіткого розділення. Буває, що в різних проєктах спеціалісти виконують ідентичну роботу, але в першому його називають дата-аналітик, а в другому — Data Scientist. А в деяких проєктах працює одна людина, яка виконує компетенції всіх трьох.

З іншого боку, індустрія роботи з даними розростається та ускладнюється. Тому кожна спеціалізація кристалізується, отримуючи певні обовʼязки та компетенції. Також зʼявляються нові професії — наприклад, Full Stack Data Scientist (така назва позиції зустрічається в США).

Data Scientist у чистому варіанті — це людина, яка розбирається як в аналітиці, так і в інженерії, може навчити модель та програмувати. Тому ця професія передбачає, що ти — певною мірою фулстек. Тобто можеш закрити під ключ будь-яке завдання.

МІФ №2

Data Science — хайп для підняття інвестицій. Насправді ж це статистика, яку загорнули в модну обгортку.

Так, машинне навчання — це поєднання статистики та методів оптимізації. Раніше це було на папері, а зараз — запрограмовано та адаптовано під використання. Але Data Science — значно ширша сфера, яка крім статистики охоплює чимало інших наукових галузей.

Технологія Data Science почала набувати популярності близько восьми років тому. Це було цілком обґрунтованим — за допомогою статистичних методів компанії почали знаходити рішення, які значно впливали на бізнес, та досягали вражаючих результатів. Спеціалістів ставало все більше — туди масово переходили як математики, які трохи знали програмування, так і програмісти, які трохи знали математику.

На цій хвилі проєкти почали застосовувати технологію з різною метою — щоби підняти інвестиції, попіаритись, посилити HR-бренд або просто «щоби було». Але зараз таких компаній, які безцільно застосовують Data Science — усе менше. Усі почали розуміти, як її можна ефективно використовувати. В Україні більшість успішних бізнесів так чи інакше використовують Data Science.

Зокрема, Data Scientist може тісно співпрацювати з маркетингом, допомагаючи їм ефективно витрачати бюджет. Наприклад, коли в застосунку підписна модель монетизації, компанія витрачає гроші на залучення користувачів одразу, а дохід від них отримує за 30, 60, 90 чи навіть 180 днів. При цьому рішення про рекламну кампанію — чи продовжувати її, зупиняти чи масштабувати, — маркетолог має ухвалити зараз. Щоби розв’язати цю проблему, Data Scientist розробляє систему прогнозування доходу користувачів. Вона дозволяє на перший, другий чи третій день рекламної кампанії мати досить точний розрахунок, скільки грошей принесуть щойно залучені користувачі. Це дає змогу маркетологам більш впевнено приймати рішення та ефективно витрачати бюджет.

МІФ №3

Для роботи в Data Science потрібні специфічні математичні знання.

Під капотом у моделей машинного навчання — математичні методи. Тому, якщо спеціаліст не розумітиме до кінця, як це працює, він не зможе досягти великих результатів.

Рівень математики залежить від того, над якими завданнями працює спеціаліст. Дійсно, є завдання, які не вирішити без специфічних знань в алгоритмах — наприклад, технологія самокерованих автомобілів або розпізнавання видів ґрунтів на Марсі. Але завдань такого рівня не так багато. Частіше спеціалістам треба будувати простіші моделі — наприклад, на основі методу лінійної регресії, які вивчають на другому курсі в КПІ.

Загалом в основі будь-якого алгоритму машинного навчання лежить математична база 1–2 курсів технічних закладів вищої освіти. На цей фундамент надалі накладаються різні ідеї та концепції.

Другий обовʼязковий скіл — знання Python. Ця мова програмування стала базовою для всієї роботи з даними, їх обробкою та аналізу. Python дуже простий у використанні, його можна досить швидко вивчити. У вільному доступі є багато готових рішень та бібліотек.

Часто джуніор спеціалісти знають теорію, методи та Python, але в них немає розуміння, як це застосувати, щоби вирішити бізнес-проблему. Вони можуть працювати тільки за шаблоном. Виконуючи тестове завдання, варто подумати про задачу з точки зору бізнесу та зробити цю модель максимально бізнес-орієнтованою.

МІФ №4

Better call Data Scientist. Побудова прогнозної моделі — головне завдання Data Scientist

Джуніори часто вважають, що процес побудови прогнозної моделі — це квінтесенція, сама суть роботи Data Scientist. Але набагато важливіше — розуміти, як ця технологія може допомогти компанії розв’язувати конкретні проблеми, яку користь принесе бізнесу. Бо взагалі-то, якщо в тебе є дані, натренувати якусь модель — нескладно. До того ж на це йде не так багато часу, як на роботу з даними, наприклад.

Тому етап № 1 побудови моделі — це визначення завдання. Потрібно зрозуміти проблему, у якому вигляді має бути результат та хто буде кінцевим споживачем. Наприклад, маркетолог або продакт-менеджер. І запропоноване рішення має бути зрозумілим для них.

Етап № 2 — збір, аналіз та процесинг даних. Не буває такого, що Data Scientist одразу отримує ідеальні дані. Завжди трапляються якісь проблеми, аномалії, пропущені значення, пробіли — усе це треба обробити.

Етап № 3 — побудова та тренування моделі. Зазвичай це потребує найменше часу.

Етап № 4 — деплоймент моделі.

Етап № 5 — оцінка результатів.

МІФ №5

Чим більше даних, тим продуктивніша модель.

Велика кількість даних — і справді добре. Але лише тим, що з них Data Scientist може обрати те, що йому необхідно. Наприклад, компанія може зберігати дані за десять років, але проєкт стрімко розвивається і змінюється. Рік тому й зараз — це два різні продукти, різна поведінка користувачів та різні дані, які не можна поєднувати.

Крім того, Data Scientist найчастіше точно не знає, які дані йому знадобляться. Наприклад, якщо треба спрогнозувати дохід користувача, можна приблизно оцінити, які параметри на це впливають — вік, стать, з якої країни, скільки заходів на місяць.

Але бувають і складніші завдання, коли точно не знаєш, який параметр «вистрілить». Наприклад, знайти вдалий момент, коли новому користувачу можна запропонувати придбати додатковий функціонал.

МІФ №6

Чим складніша модель, тим краще результат.

Продуктивність моделі не залежить від її складності. Швидше навпаки: уявіть суперважку модель, яка має обробляти 10 000 запитів за секунду. Якщо у вас недостатньо ресурсів для обробки такої кількості запитів, етап деплойменту ця модель не пройде.

Також є поняття «перенавчання». Це коли складна модель починає знаходити закономірності, яких насправді немає. Тому для кожного завдання треба використовувати оптимальну модель. Data Scientist відповідає за те, щоби не були використані занадто складні рішення для легких проблем і навпаки.