dirty text

74

Click here to load reader

Upload: vundemodalu-manjush

Post on 08-Jul-2015

106 views

Category:

Data & Analytics


0 download

DESCRIPTION

Why is it difficult to process text data and why is it very diffcult do sentiment analysis. Methods, improvements, problems and solutions.

TRANSCRIPT

Page 1: Dirty text

   

Page 2: Dirty text

   

Page 3: Dirty text

   

Meet him

Page 4: Dirty text

   

I am a very happyyy person.... 

Page 5: Dirty text

   

I am a very happyyy person....

Page 6: Dirty text

   

Remove repetition of letters

Page 7: Dirty text

   

I am a very happyyy person.... 8­) 

Page 8: Dirty text

   

I am a very happyyy person.... 8­) 

Page 9: Dirty text

   

Convert smileys

Page 10: Dirty text

   

@raju is a very happyyy person.... :) 

Page 11: Dirty text

   

@raju is a very happyyy person.... :) 

Page 12: Dirty text

   

@sachin is a very happyyy person.... :) 

Page 13: Dirty text

   

@sachin is a very happyyy person.... :) 

Page 14: Dirty text

   

@raju @sachin is a very happyyy person.... :) 

Page 15: Dirty text

   

Getting huge data

Collecting useful data

Pre Processing

Page 16: Dirty text

   

This is f**king sHittt.I hate you  :) 

Page 17: Dirty text

   

This is f**king sHittt.I hate you  :) 

Page 18: Dirty text

   

This is s**r .Are you are watching star plus :D 

Page 19: Dirty text

   

This is s**r .Are you are watching star plus :D 

Page 20: Dirty text

   

 Don't worry about everything

Page 21: Dirty text

   

Regex                                    ­ Test before you run

Page 22: Dirty text

   

Get Large Data

Filter to Useful Data

Clean

Page 23: Dirty text

   

Get Large Data

Filter to Useful Data

Clean Data Munging

20%

Page 24: Dirty text

   

Page 25: Dirty text

   

Ask questions

Page 26: Dirty text

   

 +ve (or) ­ve ?

Page 27: Dirty text

   

???

Page 28: Dirty text

   

Page 29: Dirty text

   

Magic Box

Inputdata

Page 30: Dirty text

   

Magic Box

Inputdata

Page 31: Dirty text

   

Data modeling 60%

Page 32: Dirty text

   

Page 33: Dirty text

   

Computer is dumb machine

Page 34: Dirty text

   

HeHe what's that??

1 0 machine

Page 35: Dirty text

   

We need to tag words

Page 36: Dirty text

   

Assign numbers to text

Page 37: Dirty text

   

Page 38: Dirty text

   

Worry about adjectives first

Page 39: Dirty text

   

Awesome 4

     Ugly        ­3

      Why         0

Scores.txt

Data

Sentiment

Page 40: Dirty text

   

Less accurate why?

Page 41: Dirty text

   

Most words are ignored

Page 42: Dirty text

   

What's the solution?

Page 43: Dirty text

   

Page 44: Dirty text

   

TF­IDF

Page 45: Dirty text

   

Normal Tf­Idf = Tf * Idf

Slightly modified

Tf = score           Idf=update count

Page 46: Dirty text

   

Awesome 4

     Ugly        ­3

      good        2

Scores.txt

Data

Sentiment

Fun 2.014  5

 Soft 2.92      

           

20

Dynamic.txt

Page 47: Dirty text

   

How do we know, if it's correct?

Page 48: Dirty text

   

Page 49: Dirty text

   

Testing accuracy

Page 50: Dirty text

   

Mixed sentences

Page 51: Dirty text

   

I hate facebook, but I love twitter

Page 52: Dirty text

   

I hate facebook, but I love twitter

Page 53: Dirty text

   

I hate rahul #politics, but I love modi :) 

Page 54: Dirty text

   

I hate rahul #politics, but I love modi :) 

Page 55: Dirty text

   

Page 56: Dirty text

   

Closest possible one is pos

Page 57: Dirty text

   

Page 58: Dirty text

   

I hate facebook, but I love twitter

Page 59: Dirty text

   

I hate facebook, but I love twitter

arg1 arg2 arg3 arg4Key Word

Page 60: Dirty text

   

Main word+

Args

Tagger+

PatternPolarity

Page 61: Dirty text

   

Problems with this model

Page 62: Dirty text

   

Page 63: Dirty text

   

Training data 

Processing speed 

Page 64: Dirty text

   

I hate facebook, but I love twitter

Twitter

I love 

output

Page 65: Dirty text

   

I hate facebook, but I love twitter

facebook

I hate 

output

Page 66: Dirty text

   

Problems with this model?

Page 67: Dirty text

   

Sarup is a tech Enthusiast.He has a great taste in music. He is not only a designer 

but also startup minded.

Sarup

is a tech Enthusiast

Page 68: Dirty text

   

Co reference Resolution 

Page 69: Dirty text

   

Problems with using stanford nlp 

Page 70: Dirty text

   

Page 71: Dirty text

   

We are designing our own co reference model

Page 72: Dirty text

   

Problems?

Page 73: Dirty text

   

Page 74: Dirty text

   

Thank you