data mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг...
TRANSCRIPT
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Data Mining
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Декларация
№Товар
Стоимость
(руб.)...
Результат
применения
мер
Сумма
доначисления
985765Часы
наручные243 000 ...
Занижения
стоимости нет0
359867Часы
наручные30 500 ...
Корректировка
стоимости100 000
... ... ... ... ... ...
Обучение прогнозных моделей
Декларация
№Товар
Стоимость
(руб.)
...Вероятность
занижения
стоимости
Ожидаемая
сумма
доначисления
985770Часы
наручные80 000 ... 0,7 50 000
В прошлом
Текущая
декларация
Применение прогнозных моделей
ПРИНЦИП РАБОТЫData mining
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
АНАЛИТИЧЕСКАЯ МОДЕЛЬ
На входе: исторические
данные по проверке грузов -
нарушения
законодательства выявлены
у 15%
Data mining
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Data mining ИНТЕРАКТИВНОЕ ПОСТРОЕНИЕ ПРОФИЛЕЙ
Есть страна, 98% товаров из
которой декларируются с
нарушениями
Код торгующей страны
GR
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Data mining ПРИМЕР ПРОФИЛЯ РИСКА КТС
Если цена за 1 кг нетто >=
0,96, то вероятность
нарушения = 15%
Если цена за 1 кг нетто <
0,96, то вероятность
нарушения = 45%
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Data mining
Цена за 1 кг нетто < 0,96 р.
Код условий поставки = (FCA, CIF, FOB)
Средняя стоимость товара в декларации < 29442 р.
Страна производства = Китай
Количество занимаемых мест >= 1902
ПРИМЕР ПРОФИЛЯ РИСКА КТС
Вероятность
занижения стоимости
в профиле = 82,5%
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Data mining ПРИМЕР ДЕРЕВА РЕШЕНИЙ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Data Mining
• ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ
• обнаружение скрытых закономерностей, трендов и взаимосвязей в огромных
объемах данных
• Предсказание наступления регулярных событий
• Отнесение объекта к определенному классу
• Разделение объектов на группы по схожести
• Предсказание времени до наступления события
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Data Mining ТАМОЖЕННЫЕ ДЕКЛАРАЦИИ
Правила
высокого риска
Правила
среднего риска
Правила
низкого риска
Модель
аномалий
Модель риска
сокрытия
Модель риска
КТС
Cut_off4
Cut_off4
Cut_off4/6
Cut_off4/6
Cut_off3/2
Cut_off4/3
Rule score
(r1+r2+…+rN)
Rule score
(r1+r2+…+rN)
Rule score
(r1+r2+…+rN)
Аномальное
поведение
Вер-ть заниж. тамож.
стоимости = 86%
Вер-ть провоза
незадек. груза = 68%
Профили
риска
Выявление
аномалий
Предиктивные
модели
Начало
проверки
Анализ
связей
Обновление
сети: окруж-я
декларанта,
расчет весов,
длит-ности,
уровня
совпадения
Уровень риска:
42.5
99%
85%
45%
0%
0
5
10
15
Сработало
3 правила
Правила не
сработали
Сработало
2 правила
Модель
сработала
Высокая
вероятность
Низкая
вероятность
Пропуск
груза
Решение
инспектораДосмотр
груза350 40 50
Model score
= 15
Rule score
= 5
Rule score
= 15
Model score
= 2,5
Model score
= 5
Model score
= 2,5
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Data miningАВТОМАТИЧЕСКОЕ ОЦЕНИВАНИЕ СТОИМОСТИ
НЕДВИЖИМОСТИ
Объект Квартира
Площадь 35 кв. м
Этажность дома 12
Расстояние от центра 6
Метро-расстояние, км 1,2
Этаж 10
Площадь кухни 10
Площадь жилая 20
Т-Мебель нет
Комнат всего 1
Район - название Даниловский
Ремонт нет
От метро минут 15
Тип здания Панельный
Ближайшая станция метро Автозаводская
Т-Подземная парковка нет
Количество окон 2
Округ ЮАО
Т-Нуждается в ремонте да
Т-Евроремонт нет
Т-Хороший ремонт нет
Т-Эксклюзивный ремонт нет
Т-Охраняемая территория нет
Номер узла модели = 1721
Количество объектов обучения = 224
ЕСЛИ 4.8 <= Расстояние от центра <
12.6
И Район В: (ОБРУЧЕВСКИЙ, ОЧАКОВО-
МАТВЕЕВСКОЕ, ВОЙКОВСКИЙ,
АЭРОПОРТ, ДАНИЛОВСКИЙ,
НАГАТИНСКИЙ ЗАТОН, СТРОГИНО,
КУНЦЕВО, МОЖАЙСКИЙ)
И Округ В: (ЗАО, ЮАО)
И Метро-расстояние, км >= 0.9
И 6 <= Этажность <= 17
И Тип здания В: (Панельный, Блочный)
И 31.6 <= КВ_Площадь < 38.2
ТОГДА
Результат:
Стоимость кв. метра = 190 520
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Data Mining ПРИНЦИП РАБОТЫ МОДЕЛИ
Обучение модели
Историче
ские
данные
Новый
объект
недвижи
мости
Применение модели
Кол-во
комнат
Площадь
(кв. м)Тип здания Район Парковка ...
Стоимость
кв. метра
(руб.)
2 45 Панельный Текстильщики Есть ... 160 000
3 75 Кирпичный Академический Нет ... 180 000
... ... ... ... … ... …
Кол-во
комнат
Площадь
(кв. м)Тип здания Район Парковка ...
Оценка
стоимости кв.
метра (руб.)
1 35 Панельный Даниловский Нет ... 190 520
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Data mining ПРЕДОТВРАЩЕНИЕ НЕИСПРАВНОСТЕЙ
2 часа 4 часа
Текущий момент
ОСТАНОВ
Штатный режим
работы
оборудования
Необычное
поведение
показателей: скачки,
нестабильность,
высокие значения,
низкие значения, …
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Построение страховых тарифов
Расчет оптимального
страхового тарифа для
конкретного страховщика
Прогнозирование:
• Будут ли страховые случаи
• Сколько
• Сумма страховых выплат
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Автоматическая диагностика
Ожидаемый эффект лечения
Вероятные заболевания на основе симптоматики
Вероятные заболевания на основе анализа генома
Корректен ли счет страховой компании?
Здравоохранение
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Клиентская Аналитика
Применение Что предсказываем/ классифицируем?
Сегментация и Профилирование
Up-Sell, Cross-sell Приобретет ли клиент данный товар/услугу
Рекомендательные системы Какой товар предложить следующим
Привлечение и Удержание Предпочтения клиента и склонность к уходу
Выбор конкретной маркетинговой
кампании
Отклик на предложение
Оценка Прибыльности Клиента в
течение его Жизненного Цикла
Будущий доход
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Отраслевые приложения
Применение Что предсказываем/ классифицируем?
Кредитный Скоринг Вернет ли кредит? Сколько не вернет? Станет ли банк
банкротом? ...
Анализ Рыночной Корзины Какие продукты покупают вместе
Предотвращение неисправностей Нештатные ситуации в работе оборудования
Страхование Наступление страховых случаев, размер страховых
выплат
Борьба с Мошенничеством Вероятность мошенничества. Величина мошенничества
Обнаружение нарушений законодательства/
управление рисками
Нарушает ли объект законодательство? В каком объеме?
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS Enterprise Miner SEMMA
Специальный
визард
проводит по
необходимым
шагам анализа
Гарантия
оптимальной
точности
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS Enterprise Miner
• Самый большой набор методов
моделирования и аналитического
преобразования данных
• Для каждого метода: значения параметров
по умолчанию + тонкая настройка
• Набор методов непрерывно расширяется
• Отраслевые дополнения
• Возможность повышения
производительности – SAS HP DM
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS VISUAL STATISTICS
Data Manipulation• Нахождение
выбросов
• Интерактивная
фильтрация
Data Exploration/
Visualization• Исследование
взаимосвязи параметров
• Использование
наиболее релевантных
переменных для
моделирования
• Распределение
переменных и сводные
статистики
Modeling• Предиктивные
модели
• Линейная
регрессия
• Логистическая
регрессия
• Общая линейная
регрессия
• Дерево решений
• Кластеризация
• Group by процессинг
Access & Score• Сравнение моделей
• Выгрузка скоринг код
ИНТЕРАКТИВНОЕ
МОДЕЛИРВАОНИЕ
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .SAS.com
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CLUSTERINGSAS VISUAL
STATISTICS 6.4