виявлення категорій даних у документах...2019/11/04  ·...

25
виявлення категорій даних у документах Редакція цього файлу: • містить демонстрацію можливого способу вирішення поставленої задачі • оновлена 04 листопада 2019 (версія 1.0.1) • розміщена на https://legaltech.org.ua/cases https://legaltech.org.ua/cases

Upload: others

Post on 10-Oct-2020

17 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

виявлення категорій даних у документах

Редакція цього файлу:

• містить демонстрацію можливого способу вирішення поставленої задачі

• оновлена 04 листопада 2019 (версія 1.0.1)

• розміщена на https://legaltech.org.ua/cases

https://legaltech.org.ua/cases

Page 2: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Я, Заєць Павло Григорович, даю Сокирі Петру Сергійовичу2000 гривень у борг. Дата передачі грошей – 02 серпня 2019 року. Строк для повернення – 10 днів. Відсотків нема.

Я, Їжак Ганна Василівна, 04.08.2019 даю Квітці Ірині Степанівні 3000 грн. у борг строком на 12 днів, без відсотків.

документ 1

документ 2

15 квітня 2019 я, Коваль А. П., даю Романенко Катерині Павлівні 100 доларів США на 18 днів, повернути треба на 2 відсотки більше.

документ 3

Ось 3 демонстраційні документи:

https://legaltech.org.ua/cases

Page 3: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Я, Заєць Павло Григорович, даю Сокирі Петру Сергійовичу2000 гривень у борг. Дата передачі грошей – 02 серпня 2019 року. Строк для повернення – 10 днів. Відсотків нема.

Я, Їжак Ганна Василівна, 04.08.2019 даю Квітці Ірині Степанівні 3000 грн. у борг строком на 12 днів, без відсотків.

документ 1

документ 2

15 квітня 2019 я, Коваль А. П., даю Романенко Катерині Павлівні 100 доларів США на 18 днів, повернути треба на 2 відсотки більше.

документ 3

Починаємо виявляти категорії даних у конкретних їх фрагментах:

https://legaltech.org.ua/cases

Page 4: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Я, Заєць Павло Григорович, даю Сокирі Петру Сергійовичу2000 гривень у борг. Дата передачі грошей – 02 серпня 2019 року. Строк для повернення – 10 днів. Відсотків нема.

Я, Їжак Ганна Василівна, 04.08.2019 даю Квітці Ірині Степанівні 3000 грн. у борг строком на 12 днів, без відсотків.

документ 1

документ 2

15 квітня 2019 я, Коваль А. П., даю Романенко Катерині Павлівні 100 доларів США на 18 днів, повернути треба на 2 відсотки більше.

документ 3

фрагмент/категорія даних – "кредитор":

https://legaltech.org.ua/cases

Page 5: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Я, Заєць Павло Григорович, даю Сокирі Петру Сергійовичу2000 гривень у борг. Дата передачі грошей – 02 серпня 2019 року. Строк для повернення – 10 днів. Відсотків нема.

Я, Їжак Ганна Василівна, 04.08.2019 даю Квітці Ірині Степанівні3000 грн. у борг строком на 12 днів, без відсотків.

документ 1

документ 2

15 квітня 2019 я, Коваль А. П., даю Романенко Катерині Павлівні100 доларів США на 18 днів, повернути треба на 2 відсотки більше.

документ 3

фрагмент/категорія даних – "боржник":

https://legaltech.org.ua/cases

Page 6: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Я, Заєць Павло Григорович, даю Сокирі Петру Сергійовичу2000 гривень у борг. Дата передачі грошей – 02 серпня 2019 року. Строк для повернення – 10 днів. Відсотків нема.

Я, Їжак Ганна Василівна, 04.08.2019 даю Квітці Ірині Степанівні3000 грн. у борг строком на 12 днів, без відсотків.

документ 1

документ 2

15 квітня 2019 я, Коваль А. П., даю Романенко Катерині Павлівні100 доларів США на 18 днів, повернути треба на 2 відсотки більше.

документ 3

фрагмент/категорія даних – "сума позики":

https://legaltech.org.ua/cases

Page 7: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Я, Заєць Павло Григорович, даю Сокирі Петру Сергійовичу2000 гривень у борг. Дата передачі грошей – 02 серпня 2019 року. Строк для повернення – 10 днів. Відсотків нема.

Я, Їжак Ганна Василівна, 04.08.2019 даю Квітці Ірині Степанівні3000 грн. у борг строком на 12 днів, без відсотків.

документ 1

документ 2

15 квітня 2019 я, Коваль А. П., даю Романенко Катерині Павлівні100 доларів США на 18 днів, повернути треба на 2 відсотки більше.

документ 3

фрагмент/категорія даних – "дата початку зобов’язань":

https://legaltech.org.ua/cases

Page 8: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Я, Заєць Павло Григорович, даю Сокирі Петру Сергійовичу2000 гривень у борг. Дата передачі грошей – 02 серпня 2019 року. Строк для повернення – 10 днів. Відсотків нема.

Я, Їжак Ганна Василівна, 04.08.2019 даю Квітці Ірині Степанівні3000 грн. у борг строком на 12 днів, без відсотків.

документ 1

документ 2

15 квітня 2019 я, Коваль А. П., даю Романенко Катерині Павлівні100 доларів США на 18 днів, повернути треба на 2 відсотки більше.

документ 3

фрагмент/категорія даних – "строк зобов'язань":

https://legaltech.org.ua/cases

Page 9: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Я, Заєць Павло Григорович, даю Сокирі Петру Сергійовичу2000 гривень у борг. Дата передачі грошей – 02 серпня 2019 року. Строк для повернення – 10 днів. Відсотків нема.

Я, Їжак Ганна Василівна, 04.08.2019 даю Квітці Ірині Степанівні3000 грн. у борг строком на 12 днів, без відсотків.

документ 1

документ 2

15 квітня 2019 я, Коваль А. П., даю Романенко Катерині Павлівні100 доларів США на 18 днів, повернути треба на 2 відсотки більше.

документ 3

фрагмент/категорія даних – "чи є відсотки, і якщо є, то скільки":

https://legaltech.org.ua/cases

Page 10: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Отже, в нас є:

● документи (кейси, ситуації)

● категорії даних по кожному документу (кейсу, ситуації)

https://legaltech.org.ua/cases

Page 11: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Отже, в нас є:

● документи (кейси, ситуації)

● категорії даних по кожному документу (кейсу, ситуації)

до

кум

енти

категорії даних

https://legaltech.org.ua/cases

Page 12: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

Це утворює таблицю, що є способом організації реляційних баз даних

кредитор боржник сума дата, від днівid відсотки

Заєць Павло Григорович Сокирі Петру Сергійовичу 2000 гривень 02 серпня 2019 року 10 0

2 Їжак Ганна Василівна Квітці Ірині Степанівні 3000 гривень 04.08.2019 12 0

3 Коваль А. П. Романенко Катерині Павлівні 100 доларів США 15 квітня 2019 18 2

https://legaltech.org.ua/cases

Page 13: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

кредитор боржник сума дата, відid відсотки

Заєць Павло Григорович Сокирі Петру Сергійовичу 2000 гривень 02 серпня 2019 року 0

2 Їжак Ганна Василівна Квітці Ірині Степанівні 3000 гривень 04.08.2019 0

3 Коваль А. П. Романенко Катерині Павлівні 100 доларів США 15 квітня 2019 2

Тепер необхідно оцінити повноту представлення даних

днів

10

12

18

https://legaltech.org.ua/cases

Page 14: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

кредитор боржник сума дата, відid відсотки

Заєць Павло Григорович Сокирі Петру Сергійовичу 2000 гривень 02 серпня 2019 року 0

2 Їжак Ганна Василівна Квітці Ірині Степанівні 3000 гривень 04.08.2019 0

3 Коваль А. П. Романенко Катерині Павлівні 100 доларів США 15 квітня 2019 2

Проблема 1 – неповнота даних.

(мається на увазі неповний запис імені та по-батькові)

днів

10

12

18

https://legaltech.org.ua/cases

Тепер необхідно оцінити повноту представлення даних

Page 15: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

кредитор боржник сума дата, відid відсотки

Заєць Павло Григорович Сокирі Петру Сергійовичу 2000 гривень 02 серпня 2019 року 0

2 Їжак Ганна Василівна Квітці Ірині Степанівні 3000 гривень 04.08.2019 0

3 Коваль А. П. Романенко Катерині Павлівні 100 доларів США 15 квітня 2019 2

Проблема 2 – незручна форма представлення даних.

(мається на увазі давальний відмінок)

днів

10

12

18

https://legaltech.org.ua/cases

Тепер необхідно оцінити повноту представлення даних

Page 16: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

кредитор боржник сума дата, відid відсотки

Заєць Павло Григорович Сокирі Петру Сергійовичу 2000 гривень 02 серпня 2019 року 0

2 Їжак Ганна Василівна Квітці Ірині Степанівні 3000 гривень 04.08.2019 0

3 Коваль А. П. Романенко Катерині Павлівні 100 доларів США 15 квітня 2019 2

Проблема 3 – неоднорідність систем відліку даних.

(мається на увазі змішування різних валют)

Тепер необхідно оцінити однорідність представлення даних

днів

10

12

18

https://legaltech.org.ua/cases

Page 17: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

кредитор боржник сума дата, відid відсотки

Заєць Павло Григорович Сокирі Петру Сергійовичу 2000 гривень 02 серпня 2019 року 0

2 Їжак Ганна Василівна Квітці Ірині Степанівні 3000 гривень 04.08.2019 0

3 Коваль А. П. Романенко Катерині Павлівні 100 доларів США 15 квітня 2019 2

Проблема 4 – різність форми запису даних.

(мається на увазі змішування різних валют)

днів

10

12

18

https://legaltech.org.ua/cases

Тепер необхідно оцінити однорідність представлення даних

Page 18: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

кредитор боржник сума дата, відid відсотки

Заєць Павло Григорович Сокирі Петру Сергійовичу 2000 гривень 02 серпня 2019 року 0

2 Їжак Ганна Василівна Квітці Ірині Степанівні 3000 гривень 04.08.2019 0

3 Коваль А. П. Романенко Катерині Павлівні 100 доларів США 15 квітня 2019 2

Проблема 1 – неповнота даних.

Рішення: знайти дані. Якщо не можемо, то лишаємо, як є.

Тепер пропонуємо вирішення проблем

днів

10

12

18

https://legaltech.org.ua/cases

Page 19: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

кредитор боржник сума дата, відid відсотки

Заєць Павло Григорович Сокира Петро Сергійович 2000 гривень 02 серпня 2019 року 0

2 Їжак Ганна Василівна Квітка Ірина Степанівна 3000 гривень 04.08.2019 0

3 Коваль А. П. Романенко Катерина Павлівна 100 доларів США 15 квітня 2019 2

Проблема 2 – незручна форма представлення даних.

Рішення: можемо за словником змінити відмінок.

днів

10

12

18

https://legaltech.org.ua/cases

Тепер пропонуємо вирішення проблем

Page 20: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

кредитор боржник сума дата, відid відсотки

Заєць Павло Григорович Сокира Петро Сергійович 2000 гривень 02 серпня 2019 року 0

2 Їжак Ганна Василівна Квітка Ірина Степанівна 3000 гривень 04.08.2019 0

3 Коваль А. П. Романенко Катерина Павлівна 2655 гривень 15 квітня 2019 2

Рішення: зможемо обчислити борг у гривні станом на дату Х.

Проблема 3 – неоднорідність систем відліку даних.

днів

10

12

18

дата Х

https://legaltech.org.ua/cases

Тепер пропонуємо вирішення проблем

Page 21: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

кредитор боржник сума дата, відid відсотки

Заєць Павло Григорович Сокира Петро Сергійович 2000 гривень 02.08.2019 0

2 Їжак Ганна Василівна Квітка Ірина Степанівна 3000 гривень 04.08.2019 0

3 Коваль А. П. Романенко Катерина Павлівна 2655 гривень 15.04.2019 2

Рішення: зводимо до формату "dd.mm.YYYY".

Проблема 4 – різність форми запису даних.

днів

10

12

18

https://legaltech.org.ua/cases

Тепер пропонуємо вирішення проблем

Page 22: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

Трансформація в базу даних змушує типізувати дані

кредитор боржник сума, грн дата, відid відсотки

Заєць Павло Григорович Сокира Петро Сергійович 2000 02.08.2019 0

2 Їжак Ганна Василівна Квітка Ірина Степанівна 3000 04.08.2019 0

3 Коваль А. П. Романенко Катерина Павлівна 2655 15.04.2019 2

stringinteger string integer string or date integer integer

днів

10

12

18

https://legaltech.org.ua/cases

Page 23: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

1

кредитор боржник сума, грн дата, відid відсотки

Заєць Павло Григорович Сокира Петро Сергійович 2000 02.08.2019 0

2 Їжак Ганна Василівна Квітка Ірина Степанівна 3000 04.08.2019 0

3 Коваль А. П. Романенко Катерина Павлівна 2655 15.04.2019 2

stringinteger string integer string or date integer integer

рядокчисло рядок число рядок чи дата число число

днів

10

12

18

Трансформація в базу даних змушує типізувати дані

https://legaltech.org.ua/cases

Page 24: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

Андрій Костенко

t.me/andrkosten

facebook.com/andrkostenko

t.me/legalcode

Legal Engineer в Axon Partners

axon.partners

https://legaltech.org.ua/cases

Page 25: виявлення категорій даних у документах...2019/11/04  · виявлення категорій даних у документах Редакція

IP attribution slide

• by Freepik from www.flaticon.com

different pictures and icons are made:

only for non-commercial, educational use https://legaltech.org.ua/cases

• https://emojipedia.org

different pictures and icons are taken from: