Новости

Чому алгоритми машинного навчання починають помилятися

  1. Ключовий принцип науки про дані
  2. точність
  3. повнота
  4. Частка правильних відповідей
  5. матриці помилок
  6. Помилки машинного навчання, викликані вихідними даними
  7. Людський фактор
  8. Як боротися з помилками машинного навчання
  9. Хто і навіщо використовує слабкий штучний інтелект
  10. Лінійна алгебра допомогла знайти в мові прихований сексизм

Недоліки в навчанні ML-алгоритмів часто призводять до кумедних казусів. Наприклад, айфон мого друга визначає його собаку як кішку. або ось ці два хлопця, які не можуть скористатися ліфтом з голосовим управлінням, тому що він не розуміє їх акцент. Або те, як Amazon Alexa намагалася замовити сотні лялькових будиночків, тому що прийняла випуск новин за голос свого власника. Ще з'явилися жарти про покупку Whole Foods компанією Amazon, які теж відмінно передають суть дефективних алгоритмів.

намагалася

Джефф Безос: Алекса, купи мені що-небудь з Whole Foods.

Alexa: Купую Whole Foods.

Безос: чтоооо ... а, ладно, валяй.

Ключовий принцип науки про дані

Поки я закінчувала роботу над навчальною програмою Galvanize Data Science, мені довелося провести чимало часу за вивченням такого явища, як помилка алгоритму.

Я співпрацювала з організацією, яка допомагає колишнім ув'язненим повернутися до навчання і таким чином знижує ймовірність повторного вчинення злочинів. Мені дали завдання розрахувати повну вартість тюремного ув'язнення, тобто прямі і непрямі витрати на утримання однієї людини в виправній установі.

При вивченні теми я натрапила на статтю під назвою «Машинна помилка» ( Machine Bias ), В якій розповідається про те, що в алгоритми оцінки ризиків закладені расові забобони. Виявилося, що через алгоритму, який видає надзвичайно багато хибних позитивних результатів для афроамериканців, людей відправляють за ґрати на довший термін і не дають права на дострокове звільнення. гроші платників податків йдуть на утримання в тюрмах тих, хто на волі міг би служити на благо суспільства, при цьому їхні діти потрапили в систему державної опіки.

Через необ'єктивного алгоритму люди втрачають роботу і зв'язку, а після виходу з в'язниці змушені починати життя спочатку. У той же час ті, хто більше здатен на злочин, залишається на волі, тому що алгоритм залишається сліпий до їх схильності до криміналу.

Через що з'являються ці помилкові позитивні і негативні відповіді і так чи так це важливо? Для початку давайте визначимо три терміни з Матриці помилок: точність, повнота і частка правильних відповідей.

точність

Точність - це відсоток вірно класифікованих позитивних відповідей. При високій точності алгоритм правильно розмічає максимальну кількість вірних елементів. Наприклад, інструменти медичної діагностики повинні бути дуже точними, так як хвороба може ускладнитися, якщо її вчасно не виявити.

У ситуації, коли час настільки цінне, потрібно мінімізувати кількість помилкових негативних відгуків. Точно так же, якщо в системі вашої компанії відбудеться збій, краще мати точну модель, щоб:

  1. усунути проблему,
  2. знайти винуватця якомога швидше, щоб не відривати співробітників від виконання їх обов'язків.

повнота

У свою чергу, повнота - це частка у відсотках повернутих релевантних елементів. Наприклад, якщо шукати в гуглі книги із серії про Гаррі Поттера, повернення буде дорівнює кількості книг, розділеному на сім.

В ідеалі повнота дорівнює одиниці. У цьому випадку нас чекають проблеми, і користувачам доведеться вручну копатися в нерелевантних результатах пошуку. Додатково до цього, якщо користувач не отримає релевантної видачі, він навряд чи стане щось купувати, і це зашкодить фінансовими показниками.

Частка правильних відповідей

Розраховується як частка вірних прогнозів від загальної кількості елементів у відсотках. Цей показник не можна вважати індикатором якості роботи моделі, особливо якщо класи розбалансовані. Щоб робота з точністю, повнотою, часткою правильних відповідей і матрицями помилок мала сенс, навчальні дані повинні містити достовірну інформацію про населенні, і тоді модель зможе навчитися правильно.

n = 165 Передбачення: НІ Передбачення: ТАК Насправді: НІ 50 10 Насправді: ТАК 5 100

матриці помилок

Матриці помилок - це основа матриць ефективності витрат, тобто підсумкової вартості. Для бізнесу цей термін зрозуміти легко на прикладі аналізу доходів і витрат. Думаю, у випадку з дискримінацією одного класу щодо іншого все буде складніше.

Проте ця робота, мабуть, навіть більше термінова і важлива. Нашим продуктам приділяють все більше уваги, і помилки будуть все більш помітними і значущими для компаній.

Помилки машинного навчання, викликані вихідними даними

Найбільший за обсягом етап роботи в машинному навчанні - це збір і очищення даних, на яких буде вчитися модель. Перетворення даних - це не так уже й цікаво, і постійно думати про формування відліків, викидах і розподіл генеральної сукупності може бути нудним і виснажливим справою. Однак потім через таких упущень при обробці даних і з'являються помилки алгоритмів.

Кожен день в світі генерується 2,5 ексабайт інформації, так що даних для навчання наших моделей предостатньо. Є фотографії осіб з різним кольором шкіри, в окулярах і без них, з широкими або вузькими, карими або сірими очима.

Є фотографії осіб з різним кольором шкіри, в окулярах і без них, з широкими або вузькими, карими або сірими очима

джерело: Giphy

Існують чоловічі та жіночі голоси з різними акцентами. Небажання брати до уваги ці культурні особливості даних може привести нас до моделей, які будуть ігнорувати, і таким чином маргіналізувати, певну демографічну групу. Наприклад, той випадок , Коли алгоритм від Google помилково приймав особи афроамериканців за горил. Або подушки безпеки, які повинні захищати пасажирів, ледь не вбивали жінок в аварійній ситуації. Ці хибнопозитивні відгуки, тобто укладення алгоритму про те, що все в порядку, коли ризик дійсно є, можуть коштувати комусь життя.

Людський фактор

Нещодавно одна моя подруга - інженер ПО - дізнавалася у консультанта з розвитку кар'єри , Чи варто їй використовувати в резюме і LinkedIn гендерно-нейтральне друге ім'я, щоб швидше знайти роботу. У її побоювань є підстави: в професійному світі свідомі і підсвідомі гендерні забобони дуже сильні. був випадок , Коли чоловік і жінка на час обмінялися поштовими адресами і помітили, що ставлення до них в листуванні значно змінилося.

Як боротися з помилками машинного навчання

Тим часом, якщо ми маємо навчати машини роботі з LinkedIn і резюме, то з'являється науковий інструмент боротьби із забобонами, перемогти які люди не в змозі. Некоректні алгоритми оцінки ризиків з'являються через навчання моделей за розділами даних, вже містить ці перекоси внаслідок історичних причин. Це можна виправити, якщо працювати з історичними забобонами так, щоб модель враховувала стать, вік і расу людини без дискримінації будь-якого меншини.

Дані, які містяться в моделях навчання з підкріпленням, можуть привести до різкого поліпшення або погіршення результатів. Експоненціальне зростання або падіння якості може привести до більш надійним безпілотним автомобілям, які навчаються за будь-якої свою поїздку, або ж вони можуть переконати людини з Північної Кароліни в існуванні в Вашингтоні банди з торгівлі людьми, якої насправді немає.

Чому вони починають помилятися? Ми вчимо їх цього, використовуючи помилкові тренувальні дані.

джерело

Матеріали по темі:

Хто і навіщо використовує слабкий штучний інтелект

Штучний інтелект навчився визначати сексуальну орієнтацію по фотографії

Лінійна алгебра допомогла знайти в мові прихований сексизм

Віртуальні асистенти часто терплять сексуальні домагання

Фото на обкладинці: Франческо Дацці / Shutterstock

Через що з'являються ці помилкові позитивні і негативні відповіді і так чи так це важливо?
Чому вони починають помилятися?

Уважаемые партнеры, если Вас заинтересовала наша продукция, мы готовы с Вами сотрудничать. Вам необходимо заполнить эту форму и отправить нам. Наши менеджеры в оперативном режиме обработают Вашу заявку, свяжутся с Вами и ответят на все интересующее Вас вопросы.

Или позвоните нам по телефонам: (048) 823-25-64

Организация (обязательно) *

Адрес доставки

Объем

Как с вами связаться:

Имя

Телефон (обязательно) *

Мобильный телефон

Ваш E-Mail

Дополнительная информация: