data mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг...

21
Copyright © 2012, SAS Institute Inc. All rights reserved. Data Mining

Upload: dangkhuong

Post on 26-Aug-2018

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data Mining

Page 2: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Декларация

№Товар

Стоимость

(руб.)...

Результат

применения

мер

Сумма

доначисления

985765Часы

наручные243 000 ...

Занижения

стоимости нет0

359867Часы

наручные30 500 ...

Корректировка

стоимости100 000

... ... ... ... ... ...

Обучение прогнозных моделей

Декларация

№Товар

Стоимость

(руб.)

...Вероятность

занижения

стоимости

Ожидаемая

сумма

доначисления

985770Часы

наручные80 000 ... 0,7 50 000

В прошлом

Текущая

декларация

Применение прогнозных моделей

ПРИНЦИП РАБОТЫData mining

Page 3: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

АНАЛИТИЧЕСКАЯ МОДЕЛЬ

На входе: исторические

данные по проверке грузов -

нарушения

законодательства выявлены

у 15%

Data mining

Page 4: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data mining ИНТЕРАКТИВНОЕ ПОСТРОЕНИЕ ПРОФИЛЕЙ

Есть страна, 98% товаров из

которой декларируются с

нарушениями

Код торгующей страны

GR

Page 5: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data mining ПРИМЕР ПРОФИЛЯ РИСКА КТС

Если цена за 1 кг нетто >=

0,96, то вероятность

нарушения = 15%

Если цена за 1 кг нетто <

0,96, то вероятность

нарушения = 45%

Page 6: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data mining

Цена за 1 кг нетто < 0,96 р.

Код условий поставки = (FCA, CIF, FOB)

Средняя стоимость товара в декларации < 29442 р.

Страна производства = Китай

Количество занимаемых мест >= 1902

ПРИМЕР ПРОФИЛЯ РИСКА КТС

Вероятность

занижения стоимости

в профиле = 82,5%

Page 7: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data mining ПРИМЕР ДЕРЕВА РЕШЕНИЙ

Page 8: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data Mining

• ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

• обнаружение скрытых закономерностей, трендов и взаимосвязей в огромных

объемах данных

• Предсказание наступления регулярных событий

• Отнесение объекта к определенному классу

• Разделение объектов на группы по схожести

• Предсказание времени до наступления события

Page 9: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data Mining ТАМОЖЕННЫЕ ДЕКЛАРАЦИИ

Правила

высокого риска

Правила

среднего риска

Правила

низкого риска

Модель

аномалий

Модель риска

сокрытия

Модель риска

КТС

Cut_off4

Cut_off4

Cut_off4/6

Cut_off4/6

Cut_off3/2

Cut_off4/3

Rule score

(r1+r2+…+rN)

Rule score

(r1+r2+…+rN)

Rule score

(r1+r2+…+rN)

Аномальное

поведение

Вер-ть заниж. тамож.

стоимости = 86%

Вер-ть провоза

незадек. груза = 68%

Профили

риска

Выявление

аномалий

Предиктивные

модели

Начало

проверки

Анализ

связей

Обновление

сети: окруж-я

декларанта,

расчет весов,

длит-ности,

уровня

совпадения

Уровень риска:

42.5

99%

85%

45%

0%

0

5

10

15

Сработало

3 правила

Правила не

сработали

Сработало

2 правила

Модель

сработала

Высокая

вероятность

Низкая

вероятность

Пропуск

груза

Решение

инспектораДосмотр

груза350 40 50

Model score

= 15

Rule score

= 5

Rule score

= 15

Model score

= 2,5

Model score

= 5

Model score

= 2,5

Page 10: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data miningАВТОМАТИЧЕСКОЕ ОЦЕНИВАНИЕ СТОИМОСТИ

НЕДВИЖИМОСТИ

Объект Квартира

Площадь 35 кв. м

Этажность дома 12

Расстояние от центра 6

Метро-расстояние, км 1,2

Этаж 10

Площадь кухни 10

Площадь жилая 20

Т-Мебель нет

Комнат всего 1

Район - название Даниловский

Ремонт нет

От метро минут 15

Тип здания Панельный

Ближайшая станция метро Автозаводская

Т-Подземная парковка нет

Количество окон 2

Округ ЮАО

Т-Нуждается в ремонте да

Т-Евроремонт нет

Т-Хороший ремонт нет

Т-Эксклюзивный ремонт нет

Т-Охраняемая территория нет

Номер узла модели = 1721

Количество объектов обучения = 224

ЕСЛИ 4.8 <= Расстояние от центра <

12.6

И Район В: (ОБРУЧЕВСКИЙ, ОЧАКОВО-

МАТВЕЕВСКОЕ, ВОЙКОВСКИЙ,

АЭРОПОРТ, ДАНИЛОВСКИЙ,

НАГАТИНСКИЙ ЗАТОН, СТРОГИНО,

КУНЦЕВО, МОЖАЙСКИЙ)

И Округ В: (ЗАО, ЮАО)

И Метро-расстояние, км >= 0.9

И 6 <= Этажность <= 17

И Тип здания В: (Панельный, Блочный)

И 31.6 <= КВ_Площадь < 38.2

ТОГДА

Результат:

Стоимость кв. метра = 190 520

Page 11: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data Mining ПРИНЦИП РАБОТЫ МОДЕЛИ

Обучение модели

Историче

ские

данные

Новый

объект

недвижи

мости

Применение модели

Кол-во

комнат

Площадь

(кв. м)Тип здания Район Парковка ...

Стоимость

кв. метра

(руб.)

2 45 Панельный Текстильщики Есть ... 160 000

3 75 Кирпичный Академический Нет ... 180 000

... ... ... ... … ... …

Кол-во

комнат

Площадь

(кв. м)Тип здания Район Парковка ...

Оценка

стоимости кв.

метра (руб.)

1 35 Панельный Даниловский Нет ... 190 520

Page 12: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Data mining ПРЕДОТВРАЩЕНИЕ НЕИСПРАВНОСТЕЙ

2 часа 4 часа

Текущий момент

ОСТАНОВ

Штатный режим

работы

оборудования

Необычное

поведение

показателей: скачки,

нестабильность,

высокие значения,

низкие значения, …

Page 13: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Построение страховых тарифов

Расчет оптимального

страхового тарифа для

конкретного страховщика

Прогнозирование:

• Будут ли страховые случаи

• Сколько

• Сумма страховых выплат

Page 14: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Автоматическая диагностика

Ожидаемый эффект лечения

Вероятные заболевания на основе симптоматики

Вероятные заболевания на основе анализа генома

Корректен ли счет страховой компании?

Здравоохранение

Page 15: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Клиентская Аналитика

Применение Что предсказываем/ классифицируем?

Сегментация и Профилирование

Up-Sell, Cross-sell Приобретет ли клиент данный товар/услугу

Рекомендательные системы Какой товар предложить следующим

Привлечение и Удержание Предпочтения клиента и склонность к уходу

Выбор конкретной маркетинговой

кампании

Отклик на предложение

Оценка Прибыльности Клиента в

течение его Жизненного Цикла

Будущий доход

Page 16: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Отраслевые приложения

Применение Что предсказываем/ классифицируем?

Кредитный Скоринг Вернет ли кредит? Сколько не вернет? Станет ли банк

банкротом? ...

Анализ Рыночной Корзины Какие продукты покупают вместе

Предотвращение неисправностей Нештатные ситуации в работе оборудования

Страхование Наступление страховых случаев, размер страховых

выплат

Борьба с Мошенничеством Вероятность мошенничества. Величина мошенничества

Обнаружение нарушений законодательства/

управление рисками

Нарушает ли объект законодательство? В каком объеме?

Page 17: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Enterprise Miner SEMMA

Специальный

визард

проводит по

необходимым

шагам анализа

Гарантия

оптимальной

точности

Page 18: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS Enterprise Miner

• Самый большой набор методов

моделирования и аналитического

преобразования данных

• Для каждого метода: значения параметров

по умолчанию + тонкая настройка

• Набор методов непрерывно расширяется

• Отраслевые дополнения

• Возможность повышения

производительности – SAS HP DM

Page 19: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS VISUAL STATISTICS

Data Manipulation• Нахождение

выбросов

• Интерактивная

фильтрация

Data Exploration/

Visualization• Исследование

взаимосвязи параметров

• Использование

наиболее релевантных

переменных для

моделирования

• Распределение

переменных и сводные

статистики

Modeling• Предиктивные

модели

• Линейная

регрессия

• Логистическая

регрессия

• Общая линейная

регрессия

• Дерево решений

• Кластеризация

• Group by процессинг

Access & Score• Сравнение моделей

• Выгрузка скоринг код

ИНТЕРАКТИВНОЕ

МОДЕЛИРВАОНИЕ

Page 20: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .SAS.com

Page 21: Data Mining mining ПРИМЕР ПРОФИЛЯ РИСКА КТС Если цена за 1 кг нетто >= 0,96, то вероятность нарушения = 15%

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

CLUSTERINGSAS VISUAL

STATISTICS 6.4