Особи Чернова: багатофакторний аналіз простим наочним способом. Метод представлення даних «Особи Чернова» і їх розвиток за допомогою асиметрії

Особи Чернова (Chernoff Faces) - це схема візуального представлення багатофакторних даних у вигляді людського обличчя. Кожна частина особи: ніс, очі, рот - являє собою значення певної змінної, призначеної для цієї частини (всього 18).

Основна ідея в тому, що для людини дуже звичайно дивитися на обличчя, адже всі люди роблять це щодня. Тому аналіз даних виходить таким собі "натуралістичним". Легко робити порівняння і легко виявляти відхилення. Навіть блондинки зможуть виробляти багатофакторний аналіз значної кількості даних.

У 1981 році Бернард Флурі і Ганс Рідвіл (Bernhard Flury and Hans Riedwyl) поліпшили концепцію і додали особам Чернова асиметрію. Таким чином кількість змінних збільшилася вдвічі - до 36.

Отже, кожна особа - це масив з 18 елементів, кожен з яких приймає значення від 0 до 1. Значенню відповідає зовнішній вигляд відповідної частини обличчя. Параметри досліджуваних об'єктів наводяться до цих значень. Екстремуми реальних даних будуть прийняті як 0 і 1. Все інше - лежачим в цьому проміжку. За отриманим масиву конструюється особа.

Ось які параметри задаються у особи:

  1. Розмір очі
  2. Розмір зіниці
  3. позиція зіниці
  4. нахил очі
  5. Горизонтальна позиція очі
  6. Вертикальна позиція очі
  7. вигин брови
  8. щільність брови
  9. Горизонтальна позиція брови
  10. Вертикальна позиція брови
  11. Верхня межа волосся
  12. Нижня межа волосся
  13. обвід особи
  14. темрява волосся
  15. Нахил штрихування волосся
  16. Розмір рота
  17. вигин рота

Складність полягає в правильному зіставленні досліджуваних змінних з частинами особи. При помилку важливі закономірності можуть залишитися непоміченими.

Флурі наводить приклад вдалого багатофакторного аналізу з допомогою осіб. Він проаналізував 100 реальних і 100 підроблених банкнот за параметрами розміру кордонів, відступів і діагоналей. Ось що вийшло:

Підроблені банкноти чітко виділилися в окрему групу. Таким чином аналіз дозволив виявити розрізняються групи об'єктів.

Асиметрія дозволяє розглядати об'єкти в прогресі. Другий приклад показує різні чинники у пацієнтів, до яких застосовувалося лікування. Ліва сторона обличчя показує значення параметрів до, а права - після лікування.

Подивіться як змінився стан параметрів. Легко можна зрозуміти кому і наскільки стало краще, навіть не вникаючи в суть досліджуваних параметрів.

Статтю Graphical Representation of Multivariate Data by Means of Asymmetrical Faces (by Bernard Flury and Hans Riedwyl) можна почитати на JSTOR

Якщо у вас її немає, я можу вам її надіслати в обмін на цікавлюся посилання, про яку я ще не знаю.

особах Чернова "складається в кодуванні значень різних змінних в характеристиках або рисах людського обличчя. Приклад такого" особи "наведено на ріс.16.2.


Мал. 16.2."Особа Чернова"

Для кожного спостереження малюється окреме "особа". На кожному "особі" відносні значення змінних представлені як форми і розміри окремих рис обличчя (наприклад, довжина і ширина носа, розмір очей, розмір зіниці, кут між бровами).

Аналіз інформації за допомогою такого способу відображення заснований на здатності людини інтуїтивно знаходити подібності та відмінності в рисах обличчя.

На рис. 16.3 представлений набір даних, кожен запис якого виражена у вигляді "особи Чернова".


Мал. 16.3.Приклад багатовимірного зображення даних за допомогою "осіб Чернова"

Перед використанням методів візуалізації необхідно:

  • Проаналізувати, чи слід зображати всі дані або ж якусь їх частину.
  • Вибрати розміри, пропорції та масштаб зображення.
  • Вибрати метод, який може найбільш яскраво відобразити закономірності, притаманні набору даних.

Багато сучасні засоби аналізу даних дозволяють будувати сотні типів різних графіків і діаграм. Тому вибір методу візуалізації, якщо він самостійно здійснюється користувачем, не такий простий і легкий, як може здатися на перший погляд. Наявність великої кількості засобів візуалізації, представлених в інструменті, який застосовує користувач, може навіть викликати розгубленість.

Одну і ту ж інформацію можна представити за допомогою різних засобів. Для того щоб засіб візуалізації могло виконувати своє основне призначення - подавати інформацію в простому і доступному для людського сприйняття вигляді - необхідно дотримуватися законів відповідності обраного рішення змістом інформації та її функціональним призначенням. Іншими словами, потрібно зробити так, щоб при погляді на візуальне представлення інформації можна було відразу виявити закономірності у вихідних даних і приймати на їх основі рішення.

Серед двомірних і тривимірних засобів найбільш широко відомі лінійні графіки, лінійні, стовпчикові, кругові секторні і векторні діаграми.

За допомогою лінійного графіка можна відобразити тенденцію, передати зміни якої-небудь ознаки в часі. Для порівняння декількох рядів чисел такі графіки наносяться на одні і ті ж осі координат.

гістограму застосовують для порівняння значень протягом деякого періоду або ж співвідношення величин.

кругові діаграми використовують, якщо необхідно відобразити співвідношення частин і цілого, тобто для аналізу складу або структури явищ. Складові частини цілого зображуються секторами кола. Сектори рекомендують розміщувати за їх величиною: вгорі - найбільший, інші - по руху годинникової стрілки в порядку зменшення їх величини. Кругові діаграми також застосовують для відображення результатів факторного аналізу, якщо дії всіх чинників є односпрямованим. При цьому кожен фактор відображається у вигляді одного з секторів кола.

Вибір того чи іншого засобу візуалізації залежить від поставленого завдання (наприклад, потрібно визначити структуру даних або ж динаміку процесу) і від характеру набору даних.

Мал. 16.1. Набір даних в декартових координатах і в паралельних координатах

"Особи Чернова"

Основна ідея представлення інформації в "особах Чернова" складається в кодуванні значень різних змінних в характеристиках або рисах людського обличчя. Приклад такого "особи" наведено на ріс.16.2.

Мал. 16.2. "Особа Чернова"

Для кожного спостереження малюється окреме "особа". На кожному "особі" відносні значення змінних представлені як форми і розміри окремих рис обличчя (наприклад, довжина і ширина носа, розмір очей, розмір зіниці, кут між бровами).

Аналіз інформації за допомогою такого способу відображення заснований на здатності людини інтуїтивно знаходити подібності та відмінності в рисах обличчя.

На рис. 16.3 представлений набір даних, кожен запис якого виражена у вигляді "особи Чернова".

Мал. 16.3. Приклад багатовимірного зображення даних за допомогою "осіб Чернова"

Перед використанням методів візуалізації необхідно:

Проаналізувати, чи слід зображати всі дані або ж якусь їх частину.

Вибрати розміри, пропорції та масштаб зображення.

Вибрати метод, який може найбільш яскраво відобразити закономірності, притаманні набору даних.

Багато сучасні засоби аналізу даних дозволяють будувати сотні типів різних графіків і діаграм. Тому вибір методу візуалізації, якщо він самостійно здійснюється користувачем, не такий простий і легкий, як може здатися на перший погляд. Наявність великої кількості засобів візуалізації, представлених в інструменті, який застосовує користувач, може навіть викликати розгубленість.

Одну і ту ж інформацію можна представити за допомогою різних засобів. Для того щоб засіб візуалізації могло виконувати своє основне призначення - подавати інформацію в простому і доступному для людського сприйняття вигляді - необхідно дотримуватися законів відповідності обраного рішення змістом інформації та її функціональним призначенням. Іншими словами, потрібно зробити так, щоб при погляді на візуальне представлення інформації можна було відразу виявити закономірності у вихідних даних і приймати на їх основі рішення.

Серед двомірних і тривимірних засобів найбільш широко відомі лінійні графіки, лінійні, стовпчикові, кругові секторні і векторні діаграми.

За допомогою лінійного графікаможна відобразити тенденцію, передати зміни якої-небудь ознаки в часі. Для порівняння декількох рядів чисел такі графіки наносяться на одні і ті ж осі координат.

Гістограму застосовують для порівняння значень протягом деякого періоду або ж співвідношення величин.

кругові діаграмивикористовують, якщо необхідно відобразити співвідношення частин і цілого, тобто для аналізу складу або структури явищ. Складові частини цілого зображуються секторами кола. Сектори рекомендують розміщувати за їх величиною: вгорі - найбільший, інші - по руху годинникової стрілки в порядку зменшення їх величини. Кругові діаграми також застосовують для відображення результатів факторного аналізу, якщо дії всіх чинників є односпрямованим. При цьому кожен фактор відображається у вигляді одного з секторів кола.

Вибір того чи іншого засобу візуалізації залежить від поставленого завдання (наприклад, потрібно визначити структуру даних або ж динаміку процесу) і від характеру набору даних.

якість візуалізації

Сучасні аналітичні засоби, в тому числі і Data Mining, немислимі без якісної візуалізації. В результаті використання засобів візуалізації повинні бути отримані наочні і виразні, ясні і прості зображення, за рахунок використання різноманітних засобів: кольору, контрасту, кордонів, пропорцій, масштабу і т.д.

У зв'язку із зростанням вимог до засобів візуалізації, а також необхідності порівнювання їх між собою, в останні роки було сформовано ряд принципів якісного візуального представлення інформації.

Принципи Тафта (Tufte "s Principles) графічного представлення даних високої якості свідчать:

надавайте користувачеві найбільша кількість ідей, в найкоротший час, з найменшою кількістю чорнила на мінімальному просторі;

говорите правду про дані.

В описані основні принципи компонування візуальних засобів подання інформації:

1. Принцип лаконічності.

2. Принцип узагальнення і уніфікації.

3. Принцип акценту на основних смислових елементах.

4. Принцип автономності.

5. Принцип структурності.

6. Принцип стадійності.

7. Принцип використання звичних асоціацій і стереотипів.

Принцип лаконічності говорить про те, що засіб візуалізації повинно містити лише ті елементи, які необхідні для повідомлення користувачу суттєвої інформації, точного розуміння її значення або прийняття (з ймовірністю не нижче допустимої величини) відповідного оптимального рішення.

Крім зазначених вище принципів, засіб візуалізації має володіти високою надійністю і швидкістю, яка влаштує користувача, що приймає на основі цієї інформації рішення.

Подання просторових характеристик

Окремим напрямком візуалізації є наочне уявлення просторових характеристик об'єктів. У більшості випадків такі кошти виділяють на карті окремі регіони і позначають їх різними кольорами залежно від значення аналізованого показника.

На рис. 16.4 наведено приклад такої візуалізації в середовищі MineSet, що є, в даному випадку, інструментом візуального Data Mining. Карта представлена \u200b\u200bу вигляді графічного інтерфейсу, що відображає дані у вигляді тривимірного ландшафту довільно визначених і позиціонуються форм (стовпчастих діаграм, кожна з індивідуальними висотою і кольором). Такий спосіб дозволяє наочно показувати кількісні і реляційні характеристики просторово-орієнтованих даних і швидко ідентифікувати в них тренди.

Мал. 16.4. MineSet. Ландшафтний визуализатор

Основні тенденції в області візуалізації

Як уже зазначалося, за допомогою засобів візуалізації підтримуються важливі завдання бізнесу, серед яких - процес прийняття рішень. У зв'язку з цим виникає необхідність переходу засобів візуалізації на більш якісний рівень, який характеризується появою абсолютно нових засобів візуалізації і поглядів на її функції, а також розвитком ряду тенденцій в цій галузі.

Серед основних тенденцій в області візуалізації Філіп Рассом (Philip Russom) виділяє:

1. Розробка складних видів діаграм.

Більшість візуалізацій даних побудовано на основі діаграм стандартного типу (секторні діаграми, графіки розсіювання і.т.д.). Ці способи є одночасно найстаршими, найбільш елементарними і поширеними. В останні роки перелік видів діаграм, підтримуваних інструментальними засобами візуалізації, істотно розширився. Оскільки потреби користувачів дуже різноманітні, інструменти візуалізації підтримують найрізноманітніші типи діаграм. Наприклад, відомо, що бізнес-користувачі вважають за краще секторні діаграми і гістограми, тоді як вчених більше влаштовують візуалізації у вигляді графіків розсіювання і діаграм констеляції. Користувачі, що працюють з геопросторовими даними, сильніше зацікавлені в картах і інших тривимірних уявленнях даних. Електронні інструментальні панелі, в свою чергу, більш популярні серед керівників, що використовують бізнес-аналітичні технології для контролю за показниками роботи компанії. Такі користувачі потребують наочної візуалізації у вигляді "спідометрів", "термометрів" і "світлофорів".

Засоби створення діаграм та презентаційної графіки призначені головним чином для візуалізації даних. Однак можливості такої візуалізації зазвичай вбудовані і в безліч різних інших програм і систем - в інструменти репортінгу і OLAP, засоби для Text Mining і Data Mining, а також в CRM-програми та програми для управління бізнесом. Для створення вбудованої візуалізації багато постачальників реалізують Візуалізаційні функціональність у вигляді компонент, вбудованих в різні інструменти, додатки, програми і web-сторінки (в тому числі інструментальні панелі і персоналізовані сторінки порталів).

2. Підвищення рівня взаємодії з візуалізацією користувача.

Ще зовсім недавно велика частина коштів візуалізації представляла собою статичні діаграми, призначені виключно для перегляду. Зараз широко використовуються динамічні діаграми, вже самі по собі є призначеним для користувача інтерфейсом, в якому користувач може безпосередньо і інтерактивно маніпулювати візуалізацією, підбираючи нове подання інформації.

Наприклад, базове взаємодія дозволяє користувачеві обертати діаграму або змінювати її тип в пошуках найбільш повного уявлення даних. Крім того, користувач може змінювати візуальні властивості - наприклад, шрифти, кольори і рамки. У візуалізації складного типу (графіках розсіювання або діаграмах констеляції) користувач може вибирати інформаційні точки за допомогою миші і переміщати їх, полегшуючи тим самим розуміння представлення даних.

Більш досконалі методи візуалізації даних часто включають в себе діаграму або будь-яку іншу візуалізацію як складової рівень. Користувач може поглиблюватися (drill down) в візуалізацію, досліджуючи подробиці

узагальнених нею даних, або заглиблюватися в OLAP, Data Mining або інші складні технології.

Складна взаємодія дозволяє користувачеві змінювати візуалізацію для знаходження альтернативних інтерпретацій даних. Взаємодія з візуалізацією на увазі мінімальний за своєю складністю призначений для користувача інтерфейс, в якому користувач може управляти поданням даних, просто "клікаючи" на елементи візуалізації, перетягуючи і поміщаючи уявлення об'єктів даних або вибираючи пункти меню. Інструменти OLAP або Data Mining перетворюють безпосередню взаємодію з візуалізацією в один з етапів ітераційного аналізу даних. Засоби Text Mining або управління документами надають такому безпосередньому взаємодії характер навігаційного механізму, який допомагає користувачеві досліджувати бібліотеки документів.

Візуальний запитє найбільш сучасною формою складної взаємодії користувача з даними. У ньому користувач може, наприклад, бачити крайні інформаційні точки графіка розсіювання, вибирати їх мишкою і отримувати нові візуалізації, що представляють саме ці точки. Додаток візуалізації даних генерує відповідний мову запиту, управляє прийняттям запиту базою даних і візуально представляє результуюче безліч. Користувач може сфокусуватися на аналізі, не відволікаючись на складання запиту.

3. Збільшення розмірів і складності структур даних, які подаються візуалізацією.

Елементарна секторная діаграма або гістограма візуалізує прості послідовності числових інформаційних точок. Однак нові вдосконалені типи діаграм здатні візуалізувати тисячі таких точок і навіть складні структури даних - наприклад, нейронні мережі.

Скажімо, кошти OLAP (а також інструменти генерації запитів і випуску звітів) вже давно підтримують діаграми для своїх онлайнових звітів. Нові візуалізаційні програми оновлюють контент за рахунок періодично повторюваного зчитування даних. Фактично користувачі візуалізаціонних програм, які відстежують лінійні процеси (коливання фондового ринку, показники роботи комп'ютерних систем, сейсмограмою, сітки корисності і ін.), Потребують завантаження даних в режимі реального часу або близькому до нього режимі.

Користувачі інструментів Data Mining зазвичай аналізують дуже великі набори чисельних даних. Традиційні типи діаграм для бізнесу (секторні діаграми і гістограми) погано справляються з поданням тисяч інформаційних точок. Тому інструменти Data Mining майже завжди підтримують якусь форму візуалізації даних, здатну відображати структури і закономірності досліджуваних наборів даних, відповідно до того аналітичним підходом, який використовується в інструменті.

Крім того, що візуалізація підтримує обробку структурованих даних, вона також є ключовим засобом представлення схем так званих неструктурованих даних, наприклад текстових документів, тобто

Chernoff faces) - відображення багатовимірних даних у вигляді людського обличчя, його окремих частин. Люди легко розпізнають обличчя і без утруднення сприймають невеликі зміни в ньому.

Для кожного спостереження малюється окреме «обличчя», де відносні значення обраних змінних представлені як форми і розміри окремих рис обличчя (наприклад, довжина носа, кут між бровами, ширина обличчя). Таким чином, спостерігач може ідентифікувати унікальні для кожної зміни значень наочні характеристики об'єктів.

параметри особи

Може використовуватися, наприклад, 18 параметрів: розмір очі, розмір зіниці, позиція зіниці, нахил очі, горизонтальна позиція очі, вертикальна позиція очі, вигин брови, щільність брови, горизонтальна позиція брови, вертикальна позиція брови, верхня межа волосся, нижня межа волосся, обвід особи, темрява волосся, нахил штрихування волосся, ніс, розмір рота, вигин рота.

У 1981 році Бернард Флурі і Ганс Рідвіл (Bernhard Flury and Hans Riedwyl) поліпшили концепцію і додали особам Чернова асиметрію, що дозволило збільшити вдвічі кількість змінних (до 36).

Застосування осіб Чернова

Особи Чернова знайшли широке застосування для аналізу ситуації в самих різних областях. Цей метод дозволяє швидко оцінювати стан багатофакторних систем (10-30-мірні безлічі), використовуючи вроджену здатність людини швидко оцінювати зміни в особі людини за багатьма параметрами: оцінка методів лікування, масиву статистичних даних, оцінки режиму на атомних електростанціях, в

Легко розпізнають обличчя і без утруднення сприймають невеликі зміни в ньому.

Для кожного спостереження малюється окреме «обличчя», де відносні значення обраних змінних представлені як форми і розміри окремих рис обличчя (наприклад, довжина носа, кут між бровами, ширина обличчя). Таким чином, спостерігач може ідентифікувати унікальні для кожної зміни значень наочні характеристики об'єктів.

параметри особи

Може використовуватися, наприклад, 18 параметрів: розмір очі, розмір зіниці, позиція зіниці, нахил очі, горизонтальна позиція очі, вертикальна позиція очі, вигин брови, щільність брови, горизонтальна позиція брови, вертикальна позиція брови, верхня межа волосся, нижня межа волосся, обвід особи, темрява волосся, нахил штрихування волосся, ніс, розмір рота, вигин рота.

Напишіть відгук про статтю "Особи Чернова"

Примітки

література

посилання

Уривок, що характеризує Особи Чернова

- Ви до графу Кирилу Володимировичу, ma chere? - сказав граф з їдальні, виходячи теж в передню. - Коли йому краще, кличте П'єра до мене обідати. Адже він у мене бував, з дітьми танцював. Кличте неодмінно, ma chere. Ну, подивимося, як то відзначиться нині Тарас. Каже, що у графа Орлова такого обіду не бувало, який у нас буде.

- Mon cher Boris, [Дорогий Борис,] - сказала княгиня Анна Михайлівна синові, коли карета графині Ростової, в якій вони сиділи, проїхала по засіяна соломою вулиці і в'їхала на широкий двір графа Кирила Володимировича Безвухого. - Mon cher Boris, - сказала мати, випрастивая руку з під старого салопа і боязким і ласкавим рухом кладучи її на руку сина, - будь ласкавий, будь уважний. Граф Кирило Володимирович все таки тобі хрещений батько, і від нього залежить твоя майбутня доля. Пам'ятай про це, mon cher, будь милий, як ти вмієш бути ...
- Якщо б я знав, що з цього вийде що небудь, окрім приниження ... - відповідав син холодно. - Але я обіцяв вам і роблю це для вас.
Незважаючи на те, що чиясь карета стояла біля під'їзду, швейцар, оглянувши мати з сином (які, не наказуючи доповідати про себе, прямо увійшли в скляні сіни між двома рядами статуй в нішах), значно подивившись на старенький салоп, запитав, кого їм завгодно, княжен або графа, і, дізнавшись, що графа, сказав, що їх сіятельству нині гірше і їх сіятельство нікого не приймають.
- Ми можемо виїхати, - сказав син по французьки.
- Mon ami! [Друг мій!] - сказала мати благальним голосом, знову дотрогіваясь до руки сина, як ніби це дотик міг заспокоювалась або порушувати його.
Борис замовк і, не знімаючи шинелі, запитально дивився на матір.
- Голубчик, - ніжним голоском сказала Ганна Михайлівна, звертаючись до швейцара, - я знаю, що граф Кирило Володимирович дуже хворий ... я потім і приїхала ... я родичка ... Я не буду турбувати, голубчику ... А мені б тільки треба побачити князя Василя Сергійовича: адже він тут стоїть. Доповів, будь ласка.
Швейцар похмуро смикнув шнур наверх і відвернувся.
- Княгиня Друбецкая до князю Василю Сергійовичу, - крикнув він втік зверху і з під виступу сходи визирає офіціантові в панчохах, черевиках і фраку.
Мати розправила складки свого фарбованого шовкової сукні, подивилася в незбиране венеціанське дзеркало в стіні і бадьоро в своїх стоптаних черевиках пішла вгору по килиму сходи.
- Mon cher, voue m "avez promis, [Мій друже, ти мені обіцяв,] - звернулася вона знову до Сина, дотиком руки збуджуючи його.
Син, опустивши очі, спокійно йшов за нею.
Вони увійшли в залу, з якої одні двері вели в покої, відведені князю Василю.
У той час як мати з сином, вийшовши на середину кімнати, мали намір запитати дорогу у схопився за їх вході старого офіціанта, у однієї з дверей повернулась бронзова ручка і князь Василь в оксамитовій шубці, з одною зіркою, по домашньому, вийшов, проводжаючи красивого чорнявого чоловіка. Чоловік цей був знаменитий петербурзький доктор Lorrain.
- C "est donc positif? [Отже, це вірно?] - говорив князь.
- Mon prince, «errare humanum est», mais ... [Князь, людині помилятися властиво.] - відповідав доктор, грасуючи і вимовляючи латинські слова французьким доганою.
- C "est bien, c" est bien ... [Добре, добре ...]
Помітивши Ганну Михайлівну з сином, князь Василь поклоном відпустив доктора і мовчки, але з питальним виглядом, підійшов до них. Син помітив, як раптом глибока туга висловилася в очах його матері, і злегка посміхнувся.