en bärbar läsmaskin för synskadade – textlokalisering i en ... · pdf...

En bärbar läsmaskin för synskadade – textlokalisering i en extern miljö

CHRISTIAN ROOS

Examensarbete Stockholm, Sverige 2005

TRITA-NA-E05112

Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science 100 44 Stockholm Royal Institute of Technology SE-100 44 Stockholm, Sweden

CHRISTIAN ROOS

TRITA-NA-E05112

Examensarbete i datalogi om 20 poäng vid Programmet för teknisk fysik,

Kungliga Tekniska Högskolan år 2005 Handledare på Nada var Johan Edén

Examinator var Jan-Olof Eklundh

En bärbar läsmaskin för synskadade – textlokalisering i en extern miljö

Sammanfattning För många synskadade personer upplevs svårigheten att tillgodogöra sig tryckt text som en stor begränsning. I detta arbete föreslås en ny typ av bärbar läsmaskin, som kombinerar den allt vanligare mobil-telefonen med kraftfull OCR-teknik, som kan hjälpa synskadade att läsa.

Syftet med detta arbete är att undersöka om det är möjligt att hitta och korrekt tolka text i digitala bilder, tagna med en kameratelefon med VGA upplösning, i en extern miljö. Endast bilder av hyllmärkningar har studerats. I arbetet presenteras enkla, men effektiva, algoritmer för att rektifiera digitala bilder, och för att hitta hyllmärkningar. En jäm-förelse av två olika metoder för textlokalisering, som båda använder mönstersegmentering, utförs också. Sist används ett existerande OCR-program för att tolka den lokaliserade texten.

Arbetets slutsatser är att bildernas VGA-upplösning inte är tillräcklig för att korrekt lokalisera och tolka text på hyllmärkningar. Beroende på hyllmärkningarnas layout krävs dessutom mer avancerade metoder för att felfritt kunna lokalisera text.

A Portable Reading Machine for the Visually Impaired – Text Detection in an External Environment

Abstract Visually impaired and blind people face a great problem in their everyday life, due to their difficulty in reading printed text. This thesis proposes a lightweight portable reading machine that combines the fast-developing mobile phone and the powerful OCR technology to help these people to read.

The aim was to investigate whether it would be possible to detect and correctly interpret text in digital images taken in an external environ-ment using a VGA camera phone. The work focuses exclusively on images of shelf markers. Simple, yet efficient, algorithms to rectify images, and to detect the shelf markers, are presented. A comparison of two text detection algorithms, both based on texture segmentation, is also performed. Eventually an existing OCR software is used to interpret the extracted text.

The thesis concludes that the VGA resolution of the images is not sufficient to correctly detect and interpret all text on shelf markers. The relatively complex layout of the shelf markers also requires more sophisticated methods for detecting text.

Förord Detta är ett examensarbete i datalogi, utfört vid forskningsgruppen CVAP (The Compu-tational Vision and Active Perception Laboratory) vid NADA på Kungliga Tekniska Högskolan, Stockholm. Min handledare har varit Johan Edén.

Uppgiften som behandlas i examensarbetet har jag själv valt och grundar sig på att jag själv sedan tio års ålder är synskadad. Jag lider av starkt nedsatt synskärpa på båda ögonen som ej kan korrigeras med optik (ungefärlig synskärpa är 0,1 och 0,001 för höger respektive vänster öga). I det dagliga livet upplever jag många problem som beror på mitt handikapp. Att inte kunna tillgodogöra mig all information som finns i textform i så väl böcker som på skyltar upplever jag som den största begränsningen. Under de år jag varit synskadad har jag provat på en mängd olika läshjälpmedel utan att hitta något som är tillräckligt flexibelt och som ger mig den frihet jag behöver. Jag har därför valt att undersöka om det finns alternativ till dagens hjälpmedel som skulle kunna hjälpa mig och andra synskadade på ett bättre sätt.

Jag är väl medveten om att situationen för synskadade personer är mycket olika, och har försökt att vara så objektiv som möjligt. Att helt bortse från de erfarenheter och åsikter som jag själv har är emellertid svårt. Till stor del är det ju på dessa som själva idén bakom arbetet vilar.

Ett stort tack till optiker Owe Floding vid S:t Eriks Ögonsjukhus och personalen vid Syn-central Nord. Jag vill också tacka alla vänner och bekanta som hjälpt mig att utvärdera resultaten av mina experiment.

Innehåll Sammanfattning .....................................................................................................................2

Abstract..................................................................................................................................3

Förord ....................................................................................................................................4

Innehåll ..................................................................................................................................5

1 Att inte kunna läsa ...............................................................................................................1

1.1 Synskador ............................................................................................................................................... 1 1.2 Existerande läshjälpmedel ....................................................................................................................... 2 1.3 Mobiltelefonen som läshjälpmedel........................................................................................................... 4

2 Begränsningar med OCR .....................................................................................................5

3 Teoribakgrund .....................................................................................................................7

3.1 Digitala bilder ......................................................................................................................................... 7 3.2 Bildrotation ............................................................................................................................................. 7 3.3 Lokala mått ............................................................................................................................................. 7 3.4 Skalrum .................................................................................................................................................. 8

4 Metodbeskrivningar.............................................................................................................8

4.1 Rektifiering........................................................................................................................................... 10 4.2 Lokalisering av hyllmärkningen............................................................................................................. 11 4.3 Textlokalisering – Metod 1.................................................................................................................... 13 4.4 Textlokalisering – Metod 2.................................................................................................................... 14

5 Experiment och resultat .....................................................................................................17

5.1 Bildinsamling........................................................................................................................................ 18 5.2 Rektifiering........................................................................................................................................... 18 5.3 Lokalisering av hyllmärkningen............................................................................................................. 19 5.4 Textlokalisering .................................................................................................................................... 20 5.5 OCR-behandling ................................................................................................................................... 22 5.6 Slutsatser............................................................................................................................................... 22

6 Framtida arbete..................................................................................................................23

Litteraturförteckning.............................................................................................................25

Bilaga A – Textlokalisering ..................................................................................................26

Bilaga B – Rektifiering.........................................................................................................46

Bilaga C – Implementering...................................................................................................47

1

1 Att inte kunna läsa Att kunna läsa är idag något som alla förutsätts kunna göra. Text förekommer överallt i vår vardag, i böcker, i tidningar, på skyltar och på prislappar. Att inte kunna tillgodogöra sig all denna information är ett stort handikapp, som leder till bristande kunskap och utanförskap. I takt med att mängden text som produceras blir allt större, så växer också problemet för de som är läshandikappade.

Man brukar benämna de som har svårt att läsa som läshandikappade. Synskadade är en stor grupp läshandikappade. Många synskadade personer upplever oförmågan att läsa som den största begränsningen i vardagslivet. Det är denna grupp av läshandikappade som detta arbete koncentrerar sig på.

Den handikappolitik som förs i stora delar av världen idag strävar efter att ge handikappade allt större friheter och rättigheter. Detta medför emellertid också att handikappade i allt högre grad förväntas utbilda sig, skaffa ett riktigt jobb, och leva ett ”normalt” liv. För att detta ska vara möjligt behövs någon typ av hjälpmedel för att möjliggöra och underlätta läsandet. En stor mängd olika läshjälpmedel har utvecklats. Frågan är hur bra de egentligen är.

I de följande underavsnitten följer en kort beskrivning av begreppet synskada. Därefter kommer en sammanställning av några existerande läshjälpmedel för synskadade och deras respektive för och nackdelar. Sist föreslås ett alternativt läshjälpmedel

1.1 Synskador Enligt svensk definition är man synskadad när man har stora svårigheter att läsa tryckt text trots bästa korrektion med glasögon, och när man har svårt att orientera sig i nya miljöer. Detta motsvarar en synskärpa som understiger 0,3 (Nationalencyklopedin, 1989–).

Man brukar dela in synskadade i tre undergrupper (Synskadades Riksförbund, 2005):

• Gravt synskadade, blinda – Saknar helt läs- och ledsyn. Synskärpan går ej att mäta.

• Uttalat synsvaga – Kan med svårighet läsa och orientera sig, men behöver hjälpmedel. Har synskärpa på ca 0,1 och därunder.

• Synsvaga – Synskärpa ca 0,3–0,1. Kan med stöd av optik läsa vanlig text.

Begreppet synskadad innefattar alltså både blinda och synsvaga.

Synskärpa är ett mått på ett ögas förmåga att urskilja små detaljer och definieras av ett ögas minsta distinktionsvinkel, dvs. vinkeln mellan två punkter som ögat nätt och jämt kan särskilja, se figur 1 (a).

2

Figur 1. (a) Ett ögas minsta distinktionsvinkel v. (b) Snellen-tavla.

Snellen-synskärpa, som är det mått som användes ovan, mäts på ett öga i taget med hjälp av en tavla med rader av successivt minskande bokstäver (figur 1 (b)). Snellen-synskärpa definieras som kvoten av två avstånd:

)tan()tan(

2

2v

v

normal

normal

lls ==

där l och v är avståndet till tavlan respektive minsta distinktionsvinkeln, för den undersökta personen. lnormal är det största avstånd vid vilket en normalt seende person kan läsa samma rad som den undersökta personen (Dickinson, 1998).

En Snellen-synskärpa på 1,0 motsvarar alltså normal synskärpa, och motsvaras av en minsta distinktionsvinkel vnormal på ca 1 bågminut. Synskärpa mäts på ett avstånd av 20 fot (6 meter) vilket gett upphov till uttrycket "20/20 vision" för normal synskärpa.

Att ha synskärpa 0,3 innebär alltså att man måste stå på 30 % av avståndet jämför med en fullt seende person för att kunna se eller läsa lika bra. Dålig kontrast och belysning försämrar syn-skärpan ytterligare.

Förutom nedsatt synskärpa kan synskadade personer ha andra symptom såsom starkt be-gränsat synfält, vilket ytterligare försvårar.

Synskador kan uppkomma av olika anledningar, vilket gör att den kan uppträda på olika sätt. Några vanliga orsaker är: starr, diabetes, förlossningsskador och genetiskt betingade sjuk-domar.

Uppskattningsvis är idag ca 1 % av Sveriges befolkning synskadade, och av dessa är ungefär 10 % blinda (Nationalencyklopedin, 1989–).

1.2 Existerande läshjälpmedel Det finns en stor mängd hjälpmedel för att underlätta för synskadade personer att tillgodogöra sig text. Många har framkommit som applikationer av ny teknik, men det finns också exempel på hur läshjälpmedel i sig har inneburit stora tekniska framsteg.

objekt

v

l öga

B C P T E O B Z F E D O F C L T B

T E P O L P F D L P C T Z D B F E F D O L P B Z T K H

(b) (a)

3

Jag kommer här att ge beskrivning av de huvudgrupper av läshjälpmedel som finns, och diskutera deras för och nackdelar. Vissa av hjälpmedlen är inte enbart avsedda för synskadade utan kan också användas av t.ex. dyslektiker. Vilka hjälpmedel som passar för en person är mycket individuellt och beror framför allt på hur bra den synskadade ser.

Anpassad text

Sedan länge har man försökt att anpassa text för synskadade. Idag finns ett stort utbud av böcker med stor stil, talböcker, taltidningar och punktskriftsböcker. Alla dessa typer av an-passad text ger stor frihet eftersom man kan läsa när man vill, utan att behöva någon annans hjälp. Det förutsätter förstås att den bok eller tidning man vill läsa redan är inläst eller finns på punktskrift.

Det finns emellertid mycket text förutom den som förekommer i böcker och tidningar. Talking Signs (Brabyn m.fl., 1993) är ett system som via infraröd överföring skickar information från sändare på skyltar till en bärbar mottagare med talsyntes. På så sätt kan den synskadade få uppläst priser på varor, skyltar och nummer på bussar. Detta system används endast på ett fåtal platser i världen och finns ännu så länge inte i Sverige. Nackdelen är återigen att enbart den text som anpassats är tillgänglig för den synskadade.

Anpassad text är till stor hjälp, men det kommer att bli svårt att hålla jämna steg med den snabbt ökande mängden tryckt material som produceras. Allt mer pengar och arbete kommer att krävas.

Förstorande hjälpmedel

För synsvaga och uttalat synsvaga finns det många hjälpmedel för att förstora text. De vanligaste är de optiska hjälpmedlen, glasögon, förstoringsglas och fickkikare. De är lätta att ta med sig överallt, men de saknar oftast variabel förstoring och fokus och fungerar bara på vissa avstånd.

En annan sorts förstorande hjälpmedel är CCTV (Closed Circuit Television). De består av en dator- eller TV-skärm kopplad till en videokamera på ett stativ. Genom att placera texten under kameran kan man få den uppförstorad på skärmen. Fördelen med CCTV:n, jämfört med de optiska hjälpmedlen, är att förstoring, färger och kontrast går att variera. Det finns idag också bärbara CCTVs som består av ett par VR-glasögon kopplade till en liten bärbar video-kamera som man lägger ovanpå texten (Trivisio Prototyping GmbH, 2005). De kombinerar frihet och flexibilitet, men är iögonfallande och dyra.

Förstorande hjälpmedel ger stor frihet eftersom man kan läsa i princip vad man vill. Men att läsa starkt uppförstorad text minskar läshastigheten och blir lätt tröttande. De fungerar heller inte för de som är gravt synskadade.

PC-baserade hjälpmedel

Det finns flera alternativ för att läsa digital text på en PC. Förstoringsprogram förstorar hela eller delar av skärmen med varierbar förstoring. Två vanliga skärmläsare är ZoomText (Ai Squared, Inc., 2005) och Lunar (Dolphin Computer Access, 2005). Dessa program kräver naturligtvis att den synskadade har tillräcklig synskärpa.

4

Ett utmärkt hjälpmedel för såväl synsvaga som gravt synskadade är skärmläsaren. En skärmläsare är ett program som använder syntetiskt tal för att läsa upp text på skärmen. Det syntetiska talet har länge låtit omänskligt och monotont men har under de senaste åren utvecklats snabbt. Två exempel på vanliga skärmläsare är HAL (Dolphin Computer Access, 2005) och Infovox (Babel–Infovox AB, 2005). En punktdisplay möjliggör för gravt syn-skadade att läsa vad som står på skärmen på punktskrift. Den omtolkar en textrad i taget till punktskrift, som sedan förmedlas med hjälp av ett stort antal stift som kan höjas och sänkas.

Alla dessa PC-baserade läshjälpmedel fungerar tillfredställande och förbättras ständigt för att passa nya format, program och operativsystem. De förutsätter naturligtvis att det man vill läsa finns som digital text. Om så inte är fallet kan man använda en läsmaskin.

Läsmaskiner

Läsmaskiner är samlingsnamnet för en grupp av hjälpmedel som alla har det gemensamt att de kan omvandla tryckt text till digital text. Denna process kallas OCR (Optical Character Recognition). En av pionjärerna inom detta område är Ray Kurzweil (Kurzweil Technologies, 2005) som också uppfann den första läsmaskinen 1975. En typisk modern läsmaskin består av en skanner och en PC med OCR-mjukvara och en skärmläsare.

En läsmaskin fungerar såhär:

1. En bild av textdokumentet skapas av skannern och lagras i datorn

2. OCR-mjukvara omvandlar bilden av dokumentet till digital text

3. Texten läses upp av skärmläsaren. Alternativt kan den läsas med ett förstoringsprogram eller en punktdisplay.

Dedicerade läsmaskiner använder samma teknik som PC-baserade läsmaskiner. Skillnaden är att de enbart är avsedda som ett läshjälpmedel. De är stationära, tunga och ofta dyra (i stor-leksordningen 10 000 kr). Ett exempel på en läsmaskin är Arkenstones VERA (Very Easy Reading Appliance). Det finns också ett fåtal s.k. bärbara dedicerade läsmaskiner, t.ex. Kurzweil Reading Edge (Kurzweil Technologies, 2005). De är, trots sitt namn, stora och otympliga och fungerar på samma sätt.

Läsmaskiner fungerar bra för att läsa ur böcker eller tidningar. De förutsätter dock att texten man vill läsa är tydlig och har en enkel layout. Deras storlek gör emellertid att de inte går att ständigt ha med sig.

1.3 Mobiltelefonen som läshjälpmedel Mobiltelefonen är en produkt under snabb utveckling. Den förses med allt större datorkraft och kan utföra mer avancerade uppgifter. Under de senaste åren har fler och fler mobil-telefoner också börjat utrustas med inbyggda digitalkameror. Dessa kameror kan fortfarande inte jämföras med riktiga digitalkameror när det gäller optik och upplösning. Också här sker emellertid en snabb utveckling och kamerorna blir allt bättre.

Mobiltelefontillverkarna har hittills inte brytt sig om att anpassa sina produkter för syn-skadade. De flesta telefoner har liten textstorlek med dålig kontrast, som inte går att ändra. De

5

senaste åren har det blivit möjligt att installera tredjepartsprogram på många nya mobil-telefoner. Utomstående programutvecklare kan nu sälja sina egna program för mobiltelefoner. Därmed har också läshjälpmedel för mobiltelefoner börjat utvecklas. Idag finns ett litet antal förstoringsprogram och skärmläsare för mobiltelefoner. Ett exempel på en skärmläsare är Mobile Magnifier (Code Factory, 2005). Code Factory har också gjort en skärmläsare som heter Mobile Accessibility.

En mobiltelefon med kamera, skärmläsare och ev. förstoringsprogram skulle kunna användas som en läsmaskin. Med hjälp av kameran skulle man kunna ta bilder av text som man vill läsa. Om den har tillräcklig prestanda kan telefonen själv innehålla OCR-mjukvara, som omvandlar bilden till text. Ett alternativ skulle kunna vara att skicka bilden trådlöst från kameran till en central server som OCR-behandlar bilden och skickar tillbaka resultatet. Med skärmläsaren och förstoringsprogrammet kan man sedan få texten uppläst eller uppförstorad. En läsmaskin i fickformat helt enkelt.

Att kunna använda mobiltelefonen som läshjälpmedel skulle ha många fördelar. Precis som med de traditionella läsmaskinerna skulle man kunna läsa vad man vill och när man vill. Dessutom är mobiltelefonen liten och lätt att ta med sig överallt. Den är relativt billig jämfört med existerande hjälpmedel, och är kanske något man redan äger. En annan fördel är att den inte är så iögonfallande eftersom så många redan använder mobiltelefoner dagligen.

Frågan är om bilderna som kameran tar är tillräckligt bra för att kunna OCR-behandlas korrekt. Intressant vore också att undersöka om mobiltelefonen skulle kunna användas för att läsa mer komplex text än t.ex. böcker och tidningar vilket andra läsmaskiner redan klarar av. Det är dessa två frågor som detta arbete skall behandla.

2 Begränsningar med OCR Sedan Ray Kurzweil introducerade OCR på 70-talet har tekniken att omvandla bilder till text blivit allt robustare, och klarar idag av de flesta typsnitt med hög precision. I teorin är användningsområdet för OCR oändligt. Tekniken har emellertid fortfarande stora begräns-ningar. För att text skall kunna tolkas korrekt måste bilden av texten ha hög kvalitet och upplösning. En skanner är i detta avseende idealisk. Den avbildar texten på mycket nära håll, med hög upplösning och under bra belysning. Ett skannat textdokument med svart text på vit bakgrund är lätt att binärisera och kan därefter delas upp i spalter, stycken eller rader med enkla metoder. Dessa kan sedan matas in i ett OCR-program för att tolkas.

Att ta en bild med en digitalkamera i en extern miljö skiljer sig mycket från detta idealfall. Dels har digitalkamera betydligt sämre upplösning än en skanner, dels är ljus- och kontrast-förhållandena ofta dåliga. Dessutom förekommer texten ofta på mer komplexa bakgrunder. Det går därför inte att bara binärisera bilden på samma sätt som ovan. För att kunna använda OCR under dessa förhållanden, måste bilden normalt förbehandlas på något sätt. Istället för att låta OCR-programmet ödsla tid på att försöka tolka sådant som inte är text är det vanligt att man i förväg lokaliserar all text i bilden, samt utför någon typ av bildförbättring. De textområden som lokaliserats kan sedan var för sig binäriseras.

Detta arbete skall undersöka om det är möjligt att, med ett seende system, lokalisera text i digitala bilder, tagna med en mobiltelefon i en extern miljö. Ett flertal olika metoder för att

6

hitta text i den här typen av bilder har redan föreslagits. Jag kommer därför att jämföra en existerande, mer traditionell, metod med en metod som jag själv ska utveckla. Ett existerande OCR-program kommer därefter att användas för att se om bildkvaliteten är tillräckligt hög för att korrekt tolka de textsträngar som lokaliserats. Som jämförelse kommer också original-bilderna att OCR-behandlas för att se hur mycket resultatet skiljer sig. Detta görs för att undersöka om det är möjligt att använda en mobiltelefon som ett läshjälpmedel för syn-skadade.

Det finns många situationer där synskadade skulle ha hjälp av ett bärbart läshjälpmedel. Vi ska här koncentrera oss på hyllmärkningar i affärer. För en synskadad person är det svårt att ta del av information som står på hyllkanten, t.ex. varunamn, priser och jämförpriser. Anled-ningen till att detta specialfall valts är att hyllmärkningar ofta är bra belysta och har text med hög kontrast.

En typisk bild av en hyllmärkning kommer oundvikligen att innehålla delar av varor som står på eller under hyllan. Dessa varor kan ha förpackningar med relevant eller irrelevant text. I detta arbete kommer jag att förutsätta att all relevant text finns på själva hyllkanten. För enkelhets skull kommer jag också att anta att all text på hyllkanten är relevant. Det kommer därför att ingå i arbetet att skapa en metod för att automatiskt hitta hyllmärkningen i en given bild.

Syftet med detta arbete är alltså att:

• insamla bilder av hyllmärkningar med en mobiltelefon med VGA upplösning,

• utveckla ett sätt att automatiskt hitta hyllmärkningen i de insamlade bilderna,

• implementera en existerande metod för att lokalisera text,

• utveckla och implementera en egen metod för att lokalisera text, samt

• använda ett existerande OCR-program för att tolka den lokaliserade texten.

Detta arbete syftar inte till att skriva ett program som kan användas av en riktig mobiltelefon. Det är endast avsett som ett experiment för att hitta text i digitala bilder av hyllmärkningar. Jag kommer därför inte att diskutera vilka prestandakrav som kommer att ställas på mobil-telefonen vid en eventuell fullskaleimplementering. Det ingår heller inte i arbetet att auto-matiskt avgöra vilka textsträngar som är pris, varunamn etc. För bästa resultat ska egentligen någon typ av bildförbättring utföras innan OCR-behandlingen. Detta ryms emellertid inte i detta arbete. Jag kommer däremot att använda mycket kraftfull OCR-mjukvara, vilket till viss del kompenserar för detta.

I avsnitt 3 finns en kort beskrivning av den viktigast teorin som detta arbete grundar sig på. Avsnitt 4 beskriver de metoder som använts. Beskrivning av utförandet, resultat och slutsatser återfinns i avsnitt 5. Rekommendationer för framtida arbete följer slutligen i avsnitt 6.

7

3 Teoribakgrund Jag har i detta arbete använt kunskaper från många olika områden. Det är inte möjligt att här ge en detaljerad beskrivning av all bakomliggande teori. Jag har därför valt att i detta avsnitt sammanfatta den mest centrala teorin, samt ge referenser till litteratur inom respektive område.

3.1 Digitala bilder En digital gråskalebild kan beskrivas med en tvådimensionell diskret funktion g(i,j). Funktionsvärdet g(i,j) anger värdet i pixeln (i,j). De metoder som beskrivs i avsnitt 4 är alla baserade på gråskalebilder. Den mobiltelefonkamera som används tar emellertid enbart färgbilder. Det färgformat som kameran stöder kallas för RGB, och är ett av de vanligare formaten. RGB-bilder består av tre lager, R(i,j), G(i,j) och B(i,j) som representerar färgerna rött, grönt respektive blått. För att konvertera en RGB-bild till gråskala, viktas de tre lagren på följande vis:

),(114,0),(587,0),(299,0),( jiBjiGjiRjig ⋅+⋅+⋅=

Detta beskrivs utförligare i Sonka m.fl. (1999) och Gonzalez & Woods (2002).

3.2 Bildrotation I detta arbete kommer de bilder som behandlas att behöva roteras. En bild g(i,j) roteras vinkeln θ genom att för varje pixel (ia,ja) beräkna motsvarande roterade pixel (ib,jb). Detta görs enligt följande formel:

+

−−

⋅=

2

2

2

2h

b

h

b

b

b

ji

Rji

där h och b är bildens höjd respektive bredd. R är rotationsmatrisen:

−

=θθθθ

cossinsincos

R

Därefter sammanställs den roterade bilden enligt följande:

),(),( aabbrot jigjig =

se t.ex. Forsyth & Ponce (2002).

3.3 Lokala mått Enskilt pixelvärden säger inte så mycket om innehållet i en bild. För att kunna utvinna information krävs därför att man tittar på grupper av pixlar samtidigt. Detta kan göras med hjälp av lokala mått, som viktar pixelvärden i en omgivning O kring varje pixel.

∑∑Ο∈

⋅−−=),(

),(),(),(nm

nmgnjmihjif

8

I ovanstående formel är g(i,j) bildfunktionen och h(i,j) är en s.k. mask. Denna operation kallas för diskret faltning. f(j) anger måttets värde i respektive pixel. Genom att använda olika masker kan olika typer av mått beräknas i bilden.

Följande linjära translationsinvarianta masker används i detta arbete för att approximera första- och andra-derivator:

−=

∂∂

000101000

x

−=

∂∂

010000010

y

−=

∂∂

000121000

2

2

x

−

−⋅=

∂∂∂

101000101

412

yx

−=

∂∂

010020010

2

2

y

3.4 Skalrum Ett återkommande problem när man vill hitta strukturer med lokala mått i en bild är att man inte vet på vilken skala man ska leta. Är strukturerna och maskens skalor olika kommer det lokala måttet inte att ge något utslag. En lösning till detta problem föreslogs av Witkin (1983). Hans förslag var att man skulle falta originalbilden med en gaussfunktion:

∫ ∫∞

∞−

∞

∞−−−= dadbbyaxhbagyxf ),(),(),(

där g(i,j) är bildfunktionen. h(x,y) är gaussfunktionen:

)2/()(21 22

),( tyxt eyxh +−= π

där t är gaussfunktionens varians.

Denna faltning innebär att bildens upplösning minskas. Ju större gaussfunktionens varians är, desto lägre skala får således strukturerna i bilden. Witkins idé var därför att skapa en uppsättning bilder, f(x,y), med successivt minskande skala (ett s.k. skalrum). Innehåller skalrummet tillräckligt många skalnivåer så finns det en nivå där skalan hos den eftersökta strukturen och motsvarande mask överensstämmer. Detta innebär att det lokala måttet ger utslag.

I detta arbete användes denna metod för att, med hjälp av lokala mått, hitta text av olika storlek. För mer information om skalrum se t.ex. Lindeberg (1994).

4 Metodbeskrivningar Här följer en beskrivning av det seende system jag har utvecklat. De olika delarna i systemet beskrivs i underavsnitt 4.1 till 4.4.

Syftet med systemet är att hitta och tolka text i digitala bilder av hyllmärkningar. Systemet består av fyra olika delar, rektifiering, lokalisering av hyllmärkningen, textlokalisering och OCR-behandling (se figur 2 nedan). Alla dessa metoder behandlar bilder i gråskala.

9

Figur 2. Systemets olika delar.

Vid rektifieringen (avsnitt 4.1) kompenseras för eventuella rotationer av bilden. Anledningen till att rektifiering utförs är att de metoder jag använder, både vid lokaliseringen av hyll-märkningen och vid textlokaliseringen, förutsätter att hyllmärkningen respektive texten är rak.

Bakgrunden i en bild av en hyllmärkning (se figur 3) kan innehålla irrelevant text som man inte vill ska störa den fortsatta behandlingen. Vid lokalisering av hyllmärkningen separeras därför hyllmärkningen från bakgrunden. Denna del beskrivs i avsnitt 4.2.

Arbetets huvuddel är textlokaliseringen. Dess uppgift är att hitta och markera områden med text på den utskurna hyllmärkningen. Detta görs för att förenkla OCR-behandlingen som är nästa del. Texten ska markeras med s.k. chips, som är ett rektangulärt område som innehåller en textsträng. Målet är att varje textsträng på hyllmärkningen ska finnas med i ett, och endast ett chip.

För att lokalisera text i den här typen av bilder används normalt mönstersegmentering. Man utnyttjar då att text kan ses som ett mönster med ett antal karaktärsdrag. Problemet är att många av dessa karaktärsdrag också delas av andra typer av mönster. En vanlig lösning till detta är att använda flera olika mått som är typiska för text (t.ex. andraderivator, entropi, varians, densitet etc.). Dessa mått kan sedan kombineras med logiska operatorer, klustring eller neurala nätverk så att text kan segmenteras. Se t.ex. Wu m.fl. (1997) eller Clark och Mirmehdi (2000).

I detta arbete jämfördes två metoder för textlokalisering (metod 1 och metod 2), som båda använder mönstersegmentering. Metod 1, som är mer traditionell, kombinerar andraderivator med en k-meansalgoritm. Detta är en existerande metod som hämtats från en avhandling. Metod 2, som jag själv har utvecklat, använder ett enda mått tillsammans med heuristik för text för att generera chips över alla skalor samtidigt. Metod 1 och metod 2 beskrivs utförligare i avsnitt 4.3 respektive 4.4.

Vid OCR-behandling tolkas text i de chips som lokaliserats. För detta används ett existerande OCR-program. Därför kommer denna del inte beskrivas i detta avsnitt. En kort beskrivning av programmet finns i avsnitt 5.5.

Rektifiering

Lokalisering av hyllmärkningen

TextlokaliseringMetod 1

TextlokaliseringMetod 2

OCR-behandling OCR-behandling

10

Ett system av detta slag bör, förutom de ovan nämnda delarna, också innehålla någon typ av bildförbättringsmetod för att underlätta för OCR-programmet att tolka texten. Jag har i detta arbete istället valt att använda ett mer kraftfullt OCR-program än man normalt hade gjort, vilket till en del kompenserar för detta.

Figur 3. En typisk hyllmärkning.

En kommentar om hur dessa metoder implementerades finns i Bilaga C.

4.1 Rektifiering När man tar en bild med en kamera, är det lätt att bilden inte blir helt rak, inte minst om man använder en mobiltelefon som bara hålls med en hand (se figur 4 (a) ). Detta kan dels göra att bilden roteras, dels att den blir skev. Jag kommer här att förutsätta att skevheten generellt är liten i förhållande till rotationen och att den därför inte behöver korrigeras för. Detta gör också att systemet blir mer stabilt, eftersom färre parametrar ska behandlas. Den metod som här presenteras har jag själv utvecklat.

Metoden utnyttjar att föremål som är gjorda av mänsklig hand ofta är raka och rätvinkliga. En hylla i en affär är av praktiska skäl horisontell, och har en rektangulär list med en rektangulär hyllmärkning. Varorna som står på hyllan har också ofta förpackningar i form av rätblock för att de ska gå att stapla. Därför borde en bild av en hylla med varor innehålla många horison-tella och vertikala linjer. Om man beräknar tangentriktningen i varje punkt i bilden borde det, enligt denna teori, finnas många pixlar med tangentriktning nära 0 och π/2.

11

(a)

- 1,5 7 0 tangentriktning

antal

(b)

(c)

Figur 4. (a) En roterad bild. (b) Histogram över tangentriktningen. (c) Den rektifierade bilden.

Det första steget är att falta bilden med en gaussfunktion, för att ta bort brus och små detaljer. Tangentriktningen kan sedan beräknas enligt följande:

−=

∂∂

∂∂

−

yjig

xjig

ji ),(

),(1

tan tan),(ψ 2tan2ππ ψ ≤<−

där g(i,j) är den faltade bildfunktionen. Förstaderivatorna kan här approximeras genom diskret faltning med två derivata-masker på samma sätt som beskrevs i avsnitt 3.3.

För att ta reda på vilka tangentriktningar som är vanligast används ett histogram. Empiriska försök visar att ett histogram med 700 klasser fungerar bra. Histogrammet för figur 4 (a) visas i figur 4 (b).

Som väntat finns två tydliga toppar. En i närheten av ψtan =0 som motsvarar de horisontella linjerna, och ett ungefär vid ψtan =-π/2 som motsvarar de vertikala linjerna. Eftersom de horisontella linjerna är vanligare kommer den högsta toppen alltid höra till de horisontella linjerna. Det globala maximumets avvikelse från 0 anger således vinkeln som bilden är roterad. Genom att rotera tillbaka bilden med samma vinkel (se avsnitt 3.1) fås en rak bild. Resultatet av rektifieringen visas i figur 4 (c).

4.2 Lokalisering av hyllmärkningen För att skilja mellan relevant och icke-relevant text i bilderna ska hyllmärkningen lokaliseras och skäras ut. Idén bakom denna metod är att definiera en hyllmärkning som ett område mellan två tydliga horisontella kanter, dvs. två långa linjer.

Det normala tillvägagångssättet för att hitta linjer i digitala bilder är att t.ex. använda Hough-transformer (Sonka m.fl., 1999). I detta specialfall kan man emellertid utnyttja att bilden är rektifierad, vilket innebär att hyllmärkningens över- och underkanter är horisontella. Detta gör att man kan använda en enklare och mer stabil metod för att hitta dessa.

En horisontell linje i en bild består av ett antal pixlar med tangentriktning nära noll på samma höjd i bilden. Hur många sådana pixlar som finns beror på linjens längd. På samma sätt som i

12

avsnitt 4.1 kan man beräkna tangentriktningen i samtliga pixlar i en bild. Därefter summeras de pixlar som har en liten tangentriktning radvis:

∑=

⋅≤=

b

i

jiannrs

omjf

1

361

tan ),(01

)(πψ

där b är bildens bredd. Funktionen f(j) kan ses som den horisontella linjens längd på respektive rad j i bilden. Funktionen f(j) för figur 5 (a) visas i figur 5 (b).

(a)

05 0

10 0

15 020 0

25 030 0

35 0

40 045 0

50 0

j

f(j)

(b)

(c)

Figur 5. (a) En bild av en hyllmärkning. (b) Funktionen f(j). (c) Den utskurna hyllmärkningen.

Av figur 5 (b) framgår att det finns tre tydliga toppar, som motsvarar tre långa horisontella linjer i figur 5 (a). Alla lokala maxima i f(j) utgör horisontella linjer. Det vi försöker hitta i bilden är kanter, dvs. långa, tydliga linjer. Vi definierar därför en kant på följande vis:

A utgör en kant på rad jA om

• )( Ajf är ett lokalt maximum och

• bkjf bA ⋅≥)(

där kb är en konstant och b är bildens bredd.

I de följande experimenten användes värdet kb=1/3.

En hyllmärkning består av två kanter, en över och en underkant, förutsatt att det inte finns några långa linjer på själva hyllmärkningen. Metoden skall alltså skära ut den del av bilden som ligger mellan två kanter. Som man ser i figur 5 (b) kan det dock finnas fler än två kanter i en bild. I detta fall orsakas den tredje kanten av att hyllmärkningen har en tjock överkant. Det gäller då att hitta ett sätt att välja de två rätta kanterna.

Två uppenbara problem med kanter kan uppstå

• En tjock linje kan ge upphov till två näraliggande kanter

• En eller båda hyllmärkningens kanter kan ligga utanför bilden

13

I båda fallen riskerar man att metoden skär ut en annan del av bilden än hyllmärkningen. En hyllmärkning definieras därför som följer:

Två kanter A och B, med position jA respektive jB, utgör en hyllmärkning om

• hkjj hBA ⋅=−

• det inte finns en annan kant C så att ACB jjj ≤≤

• det inte finns en annan kant D så att )()()( ADB jfjfjf ≤≤

där kh är en konstant och h är bildens höjd.

Försök visar att kh=1/10 fungerar bra. Det första kravet säger att hyllmärkningen måste ha en minimihöjd. Det andra kravet säger att det inte får finnas några kanter på själva hyllmärk-ningen, och det tredje säger att längden av A och B måste vara så lika som möjligt. Den utskurna hyllmärkningen som hör till figur 5 (a) visas i figur 5 (c).

Det bör här noteras att om bilden är skev kan vissa kanter framstå som kortare än de egentligen är, vilket kan göra att det tredje kravet inte längre håller.

4.3 Textlokalisering – Metod 1 Den existerande metod för textlokalisering jag har valt att implementera är beskriven i en avhandling av V. Wu, R. Manmatha och E. M. Riseman (Wu m.fl. 1997). Jag kommer här att ge en sammanfattning av denna metod. Metoden består av fem delar (se figur 6).

Figur 6. De olika delarna i metod 1.

I den första delen (Texture Segmentation) klassificeras bildens pixlar som antingen text eller icke-text. Detta görs genom att beräkna de tre andraderivatorna i bilden för tre näraliggande skalor. Dessa 9 derivator behandlas sedan med en k-meansalgoritm för att avgöra vilka tröskelvärden för text som skall användas. Därefter kan bilden segmenteras i text och icke-text.

Vid Chip Generation används en botten-upp-process för att skapa chips, dvs. rektangulära områden som innehåller textsträngar. Denna metod börjar med att lokalisera textliknande

Texture Segmentation

Chip Generation

Chip Scale Fusion

Text Clean-up

Chip Refinement

14

fragment som befinner sig i de segmenterade textområdena. Genom att använda heuristik för text sätts dessa textfragment ihop till allt större enheter, som till slut blir chips. I slutet av denna fas sållas felaktiga chips bort, och näraliggande chips sätts ihop.

För att kunna lokalisera text av olika textstorlek upprepas de första två delarna för olika skalor. Resultatet förenas sedan i Chip Scale Fusion. I denna del tas överlappande chips från olika skalor bort, så att varje textsträng endast finns med i ett chip.

Text Clean-up är detta systems bildförbättringsmetod. Den tar bort störningar, och jämnar ut textens bakgrund. Detta görs med lokal tröskling i respektive chip. Resultatet blir binäriserade (svart och vita) chips som, var för sig, kan behandlas med ett vanligt OCR-program. Innan alla chips OCR-behandlas, justerar Chip Refinement dessa binäriserade chips så att de omsluter textsträngarna så tätt som möjligt.

Som nämndes i början av detta avsnitt ska all bildförbättring hanteras av OCR-programmet i detta arbete. Därför kommer Chip Refinement och Text Clean-up inte att implementeras.

4.4 Textlokalisering – Metod 2 I detta underavsnitt följer beskrivningen av den textlokaliseringsmetod som jag själv har utvecklat. Metodens delar har direkta motsvarigheter i metod 1 som beskrevs i föregående underavsnitt. Jag kommer därför att använda samma namn som i avhandlingen av Wu m.fl. (1997). Den stora skillnaden jämfört med metod 1 är hur chips genereras. Metod 2 genererar chips över alla skalor samtidigt och har ingen egentlig segmenteringsfas. Metodens tre delar visas i figur 7 nedan.

Figur 7. De olika delarna i metod 2.

Chip Generation

För att generera chips används här kurvatur, som är ett bra mått på bland annat text. Kurvatur definieras på följande sätt:

( ) )det(2)(2~ 2maxmin

2maxmin

2max

2min HHtracec ⋅−=⋅−+=+ λλλλλλ

där minλ och maxλ är det minsta, respektive största egenvärdet av Hessianen

=

∂∂

∂∂∂

∂∂∂

∂∂

2

22

2

2

2

),(),(

),(),(

yyxg

yxyxg

xyyxg

xyxg

H

Chip Generation

Chip Filtering

Chip Scale Fusion

15

Detta kan skrivas om till följande uttryck:

xyjig

yxjig

yjig

xjigjic

∂∂∂⋅

∂∂∂⋅+

∂

∂+

∂

∂ ),(),(2),(),(~),(222

2

22

2

2

där g(i,j) är bildfunktionen.

För att kurvatur ska kunna användas för att hitta text måste skalan vara rätt i förhållande till textens storlek, precis som beskrevs i avsnitt 3.3. Detta betyder att bilden som man beräknar kurvaturen i ska vara faltad med en gaussfunktion med rätt varians.

En gaussfunktion kan ses som ett cirkulärt område, med en diameter som är proportionell mot kvadraten på dess varians:

2~ tl

När denna diameter är i samma storleksordning som storleken av en textsträng, kommer kurvaturen inuti textsträngen att vara hög.

Eftersom textsträngar oftast är avlånga snarare än runda, används istället en gaussfunktion med två varianser, en i x-led och en i y-led (se 8 (a)). Kurvaturen i mitten av en bokstav, ett ord eller en textsträng kommer att utgöra ett lokalt maximum när gaussfunktionen precis täcker bokstaven, ordet respektive textsträngen (se t.ex. figur 8 (b)).

Man kan därför hitta text av olika storlekar genom att beräkna kurvaturen i alla bildpunkter för olika värden på varianserna, c(x,y,tx,ty), och sedan leta efter lokala maxima i detta fyr-dimensionella rum. Genom att använda gaussfunktionens skenbara utbredning horisontellt och vertikalt, kan man skapa ett rektangulärt område kring maximumet (se figur 8 (c)). Ett sådant område kallar vi för delchip.

(a)

(b) (c)

Figur 8. (a) En gaussfunktions utbredning. (b) Kurvaturmaxima. (c) Två delchips.

Vi definierar ett delchip på följande vis:

Om c(i,j, tx, ty) utgör ett lokalt maximum är bildpunkten (i,j) mittpunkt för ett delchip vars höjd respektive bredd är:

2ytkh ⋅= 2xtkb ⋅=

29,50delchip delchip29,50maximum maximumgaussfunktion

16

Empiriska försök visar att k=2,4 ger rätt höjd och bredd. För att ett delchips storlek ska bli rätt krävs emellertid också att skalnivåerna ligger tillräckligt tätt. I de följande experimenten har skalnivåerna valts så att den motsvarande höjden och bredden ökas med 2 pixlar i taget.

Figur 9. Ett chip.

Delchips är bara ett förstadium till chips eftersom de inte nödvändigtvis täcker hela text-strängar (se figur 8 (c)). Nästa uppgift är därför att sätta ihop delchips till chips (figur 9). Eftersom en textsträng är horisontellt orienterad och har ungefär samma höjd längs med hela strängen, borde delchips som hör till samma textsträng ligga på en horisontell linje och ha samma höjd. Vi sätter därför ihop delchips till chips på följande sätt:

För varje delchip definieras ett chip som täcker samma yta som delchipet. Två av dessa chips, A och B, där höjden av A är större än höjden av B, sätts ihop om A överlappar B till 90 % i vertikalled och ett av följande påståenden är sant:

• Höjden av B är mer än 90 % av höjden av A, och det horisontella avståndet mellan A och B är mindre än 50 % av höjden av A.

• Höjden av B är mer än 30 % av höjden av A, och det A och B överlappar varandra i horisontalled med mer än 80 % av det smalare chipet.

Det vertikala och horisontella överlappet beräknas genom att projicera två chips på vertikal respektive horisontalaxeln, och mäta den sträcka som täcks av båda chipsen.

Chip Filtering

Som tidigare nämndes är kurvatur inte enbart ett mått på text. Det kan därför ha skapats chips som inte alls innehåller text. Genom att använda ytterligare kännetecken för text ska detta moment försöka sålla bort dessa felaktiga chips.

Som visades i Chip Generation kommer det finnas små delchip som endast innehåller en, eller ett fåtal bokstäver. Karaktäristiskt för text är att alla bokstäver i en och samma textsträng har ungefär samma höjd. Om man jämför chips med delchips, borde ett korrekt chip överlappa flera olika delchips som har samma höjd. Överlappar ett chip inte några sådana delchips kan man misstänka att det inte innehåller bokstäver och därför inte heller innehåller en textsträng.

Ett chip A tas bort om det inte finns minst två delchips, B och C, så att:

• B och C överlappas till minst 85 % av A

• Höjden av B och C avviker högst med 15 % från höjden av A

Typiskt för text är också att det finns smala vertikala mellanrum mellan bokstäverna. För att hitta dessa mellanrum binäriseras chips var för sig. Ett chip binäriseras genom att välja ett

29,50chip

17

tröskelvärde så att 35 % av dess pixlar blir text, och resten bakgrund. Figur 10 (a) binäriserades på detta sätt och visas i figur 10 (b).

(a) (b) (c)

Figur 10. (a) Innehållet i ett chip. (b) Ett binäriserat chip. (c) Vertikal projektion av texten.

Finns det vertikala mellanrum framträder dessa om man projicerar texten (de svarta pixlarna) vertikalt. Figur 10 (c) visar en utdragen bild av den vertikala projiceringen av figur 10 (b).

Bokstävernas mellanrum ses här som vita vertikala linjer. En övergång från svart till vitt i horisontell riktning kallar vi här för en gemensam övergång. Innehåller ett chip bokstäver borde det därför ha flera gemensamma övergångar. Vi ställer därför följande krav på ett chip:

Ett chip A tas bort om följande inte gäller:

• Antalet gemensamma övergångar är fler än tre

Chip Scale Fusion

Det är möjligt att det i detta stadium kan finnas chips som till stor del överlappar varandra. Syftet med Chip Scale Fusion är att ta bort ett av dessa chips, så att varje textsträng endast finns med i ett chip. Detta utförs så här:

För alla par av chips A och B, för vilka arean av A är större än eller lika med arean av B, tas B bort om ett av följande påståenden gäller:

• Mer än 85 % av B täcks av A

• Mer än 50 % av B täcks av A, och arean av B är mindre än 10 % av arean av A

Denna del är identisk med Chip Scale Fusion i metod 1.

5 Experiment och resultat I de följande underavsnitten följer beskrivningar av samtliga experimentella delmoment i den ordning de utfördes, samt tillhörande resultat och tolkningar. I underavsnitt 5.6 återfinns en sammanfattning av resultatet och de slutsatser som har dragits.

18

5.1 Bildinsamling För bildinsamling användes en Nokia 6600 (Nokia Svenska AB, 2005) som blev tillgänglig på den svenska marknaden hösten 2003. Telefonen har en inbyggd kamera med VGA upplösning (640x480) som tar färgbilder. Sammanlagt insamlades 47 bilder av varierande typer av hyll-märkningar och med varierande bakgrunder. För att försöka efterlikna situationen för en synskadad person togs bilderna utan att använda kamerans sökare.

Det var relativt enkelt att rikta kameran mot rätt hyllmärkning. Däremot var det svårare att veta på vilket avstånd kameran skulle hållas för att få med hela hyllmärkningen. Samtliga bilder som togs innehöll en hyllmärkning. Eftersom hyllmärkningar generellt sett är mer utdragna än själva bildformatet, innehöll bilderna också till stor del de varor som står på och under hyllan.

Det första intrycket var att många bilder inte var helt skarpa. Dels beroende på dålig fokusering, men också på rörelsesuddighet, dvs. oskärpa som beror på att kameran inte hölls helt still när bilden togs. Den storstilta texten, t.ex. pris och jämförpris, har bra kontrast och går med lätthet att läsa. Mindre text är emellertid ofta suddig och går ibland inte alls att urskilja. På grund av den låga upplösningen är den finstilta texten bara ett par pixlar hög.

I några bilder har den transparenta plasten ovanpå hyllmärkningen orsakat reflexioner som delvis döljer bakomliggande text. Många bilder är också roterade och skeva, eftersom de inte tagits rakt framifrån. De 19 första bilderna återfinns i Bilaga A.

5.2 Rektifiering Samtliga 47 bilder omvandlades till gråskala, varpå de rektifierades. För att kunna utvärdera resultatet av rektifieringen mättes vinkeln ϕ mellan hyllmärkningens underkant och horison-tallinjen i samtliga bilder. Se figur 11.

Figur 11. Hyllmärkningens vinkelϕ .

Målet med rektifieringen var att texten på hyllmärkningen skulle bli så horisontell som möjligt. Det kändes därför naturligt att använda detta mått. Medelvärdet och medianvärdet av ϕ för samtliga bilder beräknades och återfinns i tabell 1 nedan. För samtliga data se Bilaga B. I histogrammet nedan har resultatet före och efter rektifieringen åskådliggjorts.

ϕ

Hyllmärkning

19

Tabell 1. Medelvärdet och medianvärdet av ϕ i

radianer.

Mått Före Efter ϕ 0,042 0,014

Median ϕ 0,039 0,009

Hyllmärkningens vinkel före och efter rektifiering

0

5

10

15

20

25

30

0,005 0,055 0,105 0,155 0,205 vinkel (rad)

antal

föreefter

Detta resultat får anses vara bra. En vinkel på 0,042 radianer motsvarar 27 pixlars höjdskillnad mellan hyllmärkningens höger och vänstersida i en bild med upplösningen 640×480 pixlar. Som jämförelse motsvarar vinkeln 0,014 radianer knappt 9 pixlars höjdskillnad. Detta är en klar förbättring. En anledning till att inte medelvärdet är ännu närmare noll är att skevhet i bilderna inte kompenserats för. Den metod som använts för rektifieringen är robust och förutsätter lite om bildernas utseende.

5.3 Lokalisering av hyllmärkningen Hyllmärkningen lokaliserades i samtliga av de 47 rektifierade bilderna med varierande resultat. I tabell 2 åskådliggörs utfallet av detta delmoment.

Tabell 2. Resultat av lokalisering av hyllmärkning.

Lokalisering Antal Korrekt 39 Felaktig 1 Ej möjlig 7

I de 39 bilder som här anges som korrekta, var hyllmärkningen utskuren vid dess över- respektive underkant. Eftersom bilderna ibland är aningen skeva eller inte perfekt rektifierade, accepterades att en bit av något av hyllmärkningens hörn var bortskuret. I den bild där lokaliseringen var felaktig hade en annan bit av bilden än hyllmärkningen skurits ut. I de 7 bilder där lokaliseringen var ej möjlig kunde mitt program inte alls hitta någon hyllmärkning, utan returnerade ett fel. För resultatet av detta delmoment för de 19 första bilderna hänvisar vi till Bilaga A.

Den metod jag använde för att skära ut hyllmärkningen var enkel, men som det visade sig fungerade den bra. Som nämndes i avsnitt 4.2 kan problem uppstå om en bild är alltför skev, eller inte helt perfekt roterad. Detta är precis vad som orsakat att 8 av hyllmärkningarna inte lokaliserats korrekt.

20

I en bild som är skev kan metoden uppfatta en av hyllmärkningens kanter som betydligt kortare än den andra. Finns det då också andra långa linjer i bilden kan det hända att kravet för en hyllmärkning inte längre uppfylls av dessa två kanter (se definitionen för hyllmärkning i avsnitt 4.2).

Detta är precis vad som har hänt i de 7 bilder där lokaliseringen inte var möjlig. I den enstaka bild där en felaktig del av bilden skars ut, uppfylldes kraven för en hyllmärkning av ett annat par av de horisontella linjerna i bilden. Att metoden i 7 fall av 8 själv kunde upptäcka att det inte gick att hitta hyllmärkningen är positivt.

Vid en eventuell fullskaleimplementering skulle systemet i dessa fall kunna be användaren att hålla kameran rakare, för att minska skevheten, och ta en ny bild.

5.4 Textlokalisering Vid delmomentet att lokalisera text behandlades endast de 19 första bilderna. Anledningen till att inte alla 47 användes var att detta delmoment krävde mycket tid och arbete att utföra och utvärdera.

Målet med textlokaliseringen var att, i de utskurna hyllmärkningarna, automatiskt generera chips dvs. hitta och markera text. I de bilder där hyllmärkningen inte kunde skäras ut korrekt i föregående delmoment, gjordes detta manuellt. För att utvärdera textlokaliseringen användes Precision & Recall. Det är ett mått på hur bra en metod fungerar. Precision anger hur stor andel av alla markerade chips som är korrekta, och Recall anger hur stor del av alla korrekta chips som markerades.

För att avgöra vilka chips som är de korrekta, lät jag 10 personer, oberoende av varandra, markera chips i de 19 bilderna, så att alla textsträngar på hyllmärkningen hörde till ett och endast ett chip. Textsträngar som har samma textstorlek och som hör ihop skulle ingå i samma chip.

Eftersom bildkvaliteten var relativt dålig, kunde man inte förvänta sig att metoderna skulle kunna markera alla korrekta chips. Jag valde därför att låta de 10 personerna dela upp de chips som de markerade, i två grupper:

• Klart läsbar text – text som med lätthet går att läsa

• Icke läsbar text – mycket suddig, eller helt oläsbar text

Denna uppdelning gjorde det möjligt att analysera resultaten separat för dessa båda grupper.

Svaren från denna uppgift sammanställdes. För att ett chips skulle vara korrekt krävdes att en majoritet av personerna hade markerat just detta chip. På samma sätt bestämdes vilken grupp detta chip tillhörde utifrån vad merparten av denna majoritet ansåg. De svar som insamlades var mycket entydiga. Till de chips som ansågs vara klart läsbara hörde framförallt priset, jämförpriset, varunamnet och varunumret. Till de chips som var icke läsbara hörde text-strängarna ”pris”, ”jämförpris” samt varans vikt eller volym. Det totala antalet korrekta chips i respektive grupp visas i tabell 3.

21

Tabell 3. Antalet korrekta chips i respektive grupp på de första 19 hyllmärkningarna.

Grupp Korrekta chips Klart läsbara 76 Icke läsbara 90

Därefter jämfördes resultatet av textlokaliseringen för de båda metoderna (Metod 1 & Metod 2) med dessa korrekta chips. Jag valde att vara strikt med vilka chips som godkändes. Ett godkänt chip ska tätt följa textsträngens ytterkant, och får inte innehålla andra textsträngar än motsvarande korrekta chip.

Inga icke läsbara chips godkändes för någon av metoderna. Resultatet för klart läsbara chips sammanställdes och återfinns i tabell 4 nedan.

Tabell 4. Resultatet för klart läsbar text för de båda metoderna.

Metod Markerade chips Godkända chips Precision Recall Metod 1 105 19 0,18 0,25 Metod 2 72 10 0,14 0,13

I tabellen anges det totala antalet chips som markerades, och antalet chips som godkändes. Metod 1 markerade alltså 25 % av de klart läsbara chipsen. Detta ska jämföras med metod 2 som endast markerade 13 % av dessa chips. I Bilaga A återfinns bilder med de chips som de båda metoderna markerade.

Som framgår av Bilaga A lyckades metod 1 hitta en ansenlig mängd text, såväl text från icke läsbara som från klart läsbara chips. De chips som metoden markerade innefattade dock mer än bara ett korrekt chip, och godkändes därför inte. Metoden hade t.ex. ofta problem att separera priset och jämförpriset från varandra och från den finstilta texten över och under dessa. En anledning till detta är att avståndet mellan text av olika storlek på hyllmärkningarna är litet. Detta medför att det låga recall- och precision-värdet i tabell 4 ovan blir något missvisande.

Metod 2 klarade bättre av att separera text av olika textstorlekar, och markerade 9 av de 35 priserna och jämförpriserna helt korrekt. Däremot hade den svårt att hitta mindre text såsom varunamn och varunummer. Som delvis framgår av precision-värdet i tabell 4 var metod 2 också sämre på att skilja text från icke-text. Tydligt är att den heuristik som användes i metoden inte var tillräcklig. Samtidigt visar det dåliga recall-värdet att det inte finns utrymme för att ställa högre krav på chipsen. Att använda kurvaturmaxima för att hitta text på det sättet som gjorts i metod 2 verkar därför inte vara praktiskt möjligt.

Man kan här dra slutsatsen att metod 1 fungerade bättre än metod 2. Med striktare krav på hur chips ska smältas samman, t.ex. i fasen Chip Scale Fusion (se avsnitt 4.2), tillsammans med bättre upplösning och bildkvalitet borde mycket bättre resultat kunna uppnås med metod 1.

22

5.5 OCR-behandling För OCR-behandlingen användes OmniPage Pro 14 (ScanSoft, 2005) som är ett av mark-nadens ledande OCR-program. OmniPage är inte riktigt representativt eftersom det, till skillnad från många andra OCR-program, har en egen funktion för att lokalisera text på komplexa bakgrunder. Anledningen till att jag, trots detta, valde att använda OmniPage var att det har en inbyggd bildförbättringsmetod, vilket skulle krävas för den här typen av bilder.

Syftet med detta delmoment var att se hur mycket text på hyllmärkningen som gick att tolka. Dessutom skulle studeras hur stor skillnaden blir när enbart hyllmärkningen respektive chipsen behandlas, jämfört med hela originalbilden. De 19 första originalbilderna (i gråskala) och de tillhörande rektifierade hyllmärkningarna behandlades. Alla godkända chips från metod 1 och metod 2 skars också ut och OCR-behandlades var för sig.

Det bör här påpekas att bilder som var mindre än 50 pixlar höga inte gick att behandla med OmniPage. De bilder av chips som var mellan 25 och 49 pixlar höga skalades därför om så att de uppfyllde detta minimikrav. Detta gjordes för att försöka tolka så många chips som möjligt.

För att utvärdera detta förfarande räknades antalet ord som tolkats helt korrekt i respektive fall. Till ord räknades här också priser, som t.ex. ”24,90”. För att ett ord skulle räknas som korrekt tolkat, skulle samtliga tecken överensstämma, och ordet vara separerat från övrig text med mellanslag. Sammanställning av dessa resultat visas i tabell 5. Det fullständiga resultatet av OCR-behandlingen för respektive bild, finns i Bilaga A.

Tabell 5. Antal korrekt tolkade ord på hyllmärkningen för respektive bildtyp.

Bild Behandlade ord Godkända ord Recall Originalbild 109 18 0,17 Hyllmärkning 109 20 0,18 Godkända chips (Metod 1) 22 1 0,05 Godkända chips (Metod 2) 11 5 0,45

I tabellen ovan anges det totala antalet ord på hyllmärkningen respektive i de godkända chipsen. Därefter det antal ord som tolkades korrekt av de behandlade orden. Sist anges recall-värdet dvs. hur stor del av de behandlade orden som blev korrekt tolkade.

Resultatet visar att priser i allmänhet tolkas helt eller nästan helt korrekt. Även varunummer blir ofta korrekta. Varunamnen verkar däremot vara svåra att tolka och endast ett fåtal ord blir rätt.

Som nämndes ovan har OmniPage en egen metod för att hitta text. Därför blir det heller ingen häpnadsväckande skillnad mellan originalbilderna och hyllmärkningen. Eftersom så få godkända chips kunde lokaliseras går det inte heller att lägga särskilt stor vikt vid dessa resultat. Intressant är dock att se att det faktiskt går att tolka den storstilta texten så pass bra.

5.6 Slutsatser Att i praktiken använda bilder från en kameratelefon med VGA-upplösning för att hitta och tolka text på hyllmärkningar kommer att bli svårt. Detta beror på den bristfälliga bild-kvaliteten och upplösningen. Även om bilderna hade varit perfekt fokuserade räcker inte

23

upplösningen till för den mindre texten. För att ett system av detta slag ska gå att använda som ett läshjälpmedel måste all text på hyllmärkningen gå att tolka.

Att resultatet av OCR-behandlingen, trots den dåliga bildkvaliteten, ändå ger någorlunda resultat beror till viss del på att OCR-programmet (OmniPage) själv tar hand om bild-förbättringen. Det är troligt att man i framtida experiment kommer vilja använda ett mindre prestanda och tidskrävande OCR-program. Det kommer då att bli nödvändigt att utveckla någon typ av egen bildförbättringsmetod.

Givet att man har en bild med bättre upplösning och av god kvalitet, kommer det också att ställas högre krav på textlokaliseringsmetoden.

Det finns naturligtvis fler situationer där en portabel läsmaskin skulle kunna underlätta för synskadade än ju i affärer. Det är därför troligt att det finns situationer där detta system ändå skulle kunna vara till stor hjälp. De problem som uppenbarade sig i detta arbete var ju framförallt att viss typ av text var för liten och att layouten var hoptryckt. En helt vanlig skylt med enbart stor text fördelad på en eller två rader borde t.ex. fungera bättre än just hyllmärk-ningar. Det är därför inte säkert att det system jag föreslagit här helt saknar användningsområde.

6 Framtida arbete Att hitta och tolka text i digitala bilder är en komplicerad process som består av många olika delmoment. Detta gäller inte minst när texten förekommer i en extern miljö, som i det här arbetet. I detta arbete har jag bara haft tid att behandla vissa delar av denna process. Det finns därför flera exempel på förbättringar som kan göras vid eventuella framtida experiment.

Under arbetets gång har mobiltelefoner med bättre kameror och optik kommit ut på mark-naden. Både Nokia 7710 (Nokia Svenska AB, 2005) och Sony Ericsson V800 (Sony Ericsson Mobile Communications AB, 2005) har inbyggda kameror med en upplösning på 1,3 mega-pixels. Detta ska jämföras med den kamera som användes i detta arbete som har en upp-lösning på 0,3 megapixels. Det vore intressant att, med dessa nya mobiltelefoner, upprepa det experiment jag gjort. Den förbättrade upplösningen borde ge bättre resultat både vid lokali-seringen av text och vid OCR-behandlingen.

Som tidigare nämnts hade jag inom detta arbetes ramar inte utrymme för att implementera en bildförbättringsmetod. Detta kommer att bli nödvändigt om man i framtiden vill uppnå bättre resultat. Även om man använder en bättre kamera kommer det alltid att finnas yttre faktorer som försämrar bildkvaliteten. För att OCR-behandlingen ska ge bra resultat måste oskärpa, dålig kontrast, reflexioner etc. kompenseras för. Detta beror på att de OCR-program som finns idag främst är avsedda för högkvalitativa bilder.

Jag gjorde i detta arbete förenklingen att all text på hyllmärkningen var relevant, vilket inte alltid stämmer. En lösning vore att matcha storleken och placeringen av de chips som hittats i bilden med mallar av kända hyllmärkningar. När systemet avgjort vilken typ av hyllmärkning det är fråga om, kan det direkt avgöra om ett chip innehåller relevant text. Denna lösning försämrar systemets flexibilitet, eftersom det bara skulle fungera på vissa typer av hyllmärk-ningar. Ett bättre sätt att lösa problemet vore att återkoppla resultatet av OCR-behandlingen

24

till systemet. Då kan man, utifrån textinnehållet, avgöra om en textsträng är ett pris, ett varunamn eller något irrelevant. Av Bilaga A framgick att vissa textsträngar förekommer i flera olika chips. Detta gör naturligtvis att resultatet av OCR-behandlingen innehåller samma textsträng flera gånger. Med hjälp av återkoppling skulle man kunna jämföra texten i överlappande chips för att ta bort eventuella multiplar.

Själv tror jag absolut att mobiltelefonen har en framtid som läshjälpmedel. Jämfört med andra läshjälpmedel har den många fördelar. De tekniska hinder som finns idag kommer, med den snabba utvecklingen inom mobiltelefonin, förhoppningsvis att kunna överkommas. Med ovannämnda förbättringar borde det gå att uppnå ett acceptabelt resultat. Hur en eventuell fullskaleimplementering skulle kunna se ut är emellertid svårt att säga.

25

Litteraturförteckning Ai Squared, Inc. http://www.aisquared.com

Tillverkare av bl.a. förstoringsprogrammet ZoomText

Brabyn, J. Crandall, W. & Gerryey, W. 1993. Talking signs: a remote signage solution for the blind, visually impaired and reading disabled. Proceedings of the Annual Conference on Engineering in Medicine and Biology. s 1309–1310. ISBN: 0-7803-1377-1

Babel–Infovox AB. http://www.babeltech.be/ Tillverkare av skärmläsaren Infovox

Clark, P. & Mirmehdi,.M. 2000. Finding Text Regions Using Localised Measures. Proceedings of the 11th British Machine Vision Conference. s 675–684.

Code Facotry. http://www.codfact.com/mobilemagnifier/ Tillverkare av synhjälpmedel för mobiltelefoner

Dickinson, C. 1998. Low Vision: Principles And Practice. Butterworth Heinemann. Boston, USA. ISBN: 0750623628

Dolphin Computer Access. http://www.dolphin-de.de/ Tillverkare av synhjälpmedel

Forsyth, D. A. & Ponce, J. 2002. Computer Vision: A Modern Approach. Prentice Hall. ISBN: 0131911937

Gonzalez, R. C. & Woods, R. E. 2002. Digital Image Processing. Addison–Wesley. Boston, USA. ISBN: 0201508036

Kurzweil Technologies. http://www.kurzweiltech.com Information om Ray Kurzweil och läsmaskiner

Lindeberg, T. 1994. Scale-space theory in computer vision. The Kluwer International Series in Engineering and Computer Science. Kluwer Academic Publishers. Dordrecht, Holland.

MathWorks, Inc. http://www.mathworks.com Tillverkare av Matlab

Nationalencyklopedin. 1989–. Bra Böcker AB. Höganäs

Nokia Svenska AB. http://www.nokia.se ScanSoft, Inc. http://www.scansoft.com

Tillverkare av Matlab

Sonka, M., HLavac, V. & Boyle, R. 1999. Image Processing, Analasis, and Machine Vision, 2nd Edition. Brooks/Cole Publishing Company. Pacific Grove. ISBN: 0-534-95393-X.

Sony Ericsson Mobile Communications AB. http://www.sony-ericsson.se

Synskadades Riksförbund. http://www.srfriks.org Senast besökt maj 2005. Information om synskadade

Trivisio Prototyping GmbH. http://www.trivisio.com Tillverkare av bärbara CCTVs.

Witkin, A. P. 1983. Scale-space filtering. Proceedings of the Eighth International Joint Conference on Artificial Intellegence. Karlsruhe, Västtyskland.

Wu, V. Manmatha, R. & Riseman, E. M. 1997. Finding Text In Images. International Conference on Digital Libraries archive. s 3–12. ISBN: 0-89791-868-1

26

Bilaga A – Textlokalisering Här återfinns de 19 första originalbilderna samt resultaten av lokaliseringen av hyllmärkningen och textlokaliseringen för dessa bilder. I bildtexterna visas också resultaten av OCR-behandlingen av respektive bild.

27

Bild 1. (a) Originalbild: (;►'unn A 41, '--' Now Oft ANc ,l 10091 ,. ORANGE 229,00 22,90 (b) Hyllkant: LUih IIhPN61 229,00 22,90 (c) Metod 1: 220,00 22.9 ~ 22,90I (d) Metod 2: 223,00 901

28

Bild 2. (a) Originalbild: <tom> (b) Hyllmärkning: N6 S BR 4K AS 95,60 23,90ffi 1 "-'° AIINI (c) Metod 1: 23,90 95,60 23,E (d) Metod 2: 15,60 2,90

29

Bild 3. (a) Originalbild: ,90 561639 111 11 42,25 16,90 (b) Hyllmärkning: ma m~ ffi, ~~ 42,25 ~ö,so (c) Metod 1: 16, 90 42 1 2s 16,90 (d) Metod 2: 42,25

30

Bild 4. (a) Originalbild: 1N`nIY` I 1 ~ l• r'i yrey ~lLm 26.50 (b) Hyllmärkning: Utillm 191 2150 1 (c) Metod 1: ;V Y6.50 (d) Metod 2: 0 Y6.50 I 35450b

31

Bild 5. (a) Originalbild: 5 L tlM IMI~/IA FYIII 1 M.~ ii~,nx ?6,90 (b) Hyllmärkning: , ~~~~ti 11•7,1111 76,90 (c) Metod 1: ,,, ii? 117,119 20,901 (d) Metod 2: <tom>

32

Bild 6. (a) Originalbild: <tom> (b) Hyllmärkning: 08 LE ~{g{g nxlSIA Sr4SNrl (c) Metod 1: r,8o 18A ~.. .. ~~~~ ~~. ~ ~~~~ 11 me 37,80 (d) Metod 2: 37,80

33

Bild 7. (a) Originalbild: <tom> (b) Hyllmärkning: 350 96 36,50 (c) Metod 1: so.ee 86,50 (d) Metod 2: 15016

34

Bild 8. (a) Originalbild: <tom> (b) Hyllmärkning: <tom> (c) Metod 1: 5,9q um 1P,9Ö (d) Metod 2: IS a

35

Bild 9. (a) Originalbild: HUI CHILI (b) Hyllmärkning: piil,l; Nhl 1:N41 MI 18,90 ~.~.,,~-~ 11110I sr (c) Metod 1: 1u 118,9U (d) Metod 2: <tom>

36

Bild 10. a) Originalbild: CNAMPINAIN Rl MI iuiii~ 139,99 25,90 b) Hyllmärkning: LMAA9PINJON IJII A1I ,,, 1111111 139,99 25,90 c) Metod 1: LHAMPIN41111 IIN, (11 Kli 25,90 139,99 19,99 25,9 d) Metod 2: UDN. h41 IMI

37

Bild 11. (a) Originalbild: <tom> (b) Hyllmärkning: <tom> (c) Metod 1: .nca .~w A~ f. 01 (d) Metod 2: <tom>

38

Bild 12. (a) Originalbild: OS`9Z WoIi nNnn < A,IVMWV , (b) Hyllmärkning: { tRT61Vi Ak Fi 1 k tv, I I' 41 111 11 1 1 0,43 26,50 (c) Metod 1: 110,43 26,5U (d) Metod 2: 110,43

39

Bild 13. (a) Originalbild: III', ull FNYMFFIII MMt/Nn T, 110,43 Zs,~SRI 690682 ~IIIIIII (b) Hyllmärkning: f ~HRR AYVII +IMO ~,. Rrnnl 110,43 2Ö," (c) Metod 1: 0,43 28, 54 2s,~s!~ (d) Metod 2: 10,43

40

Bild 14. (a) Originalbild: 19.61 2100 (b) Hyllmärkning (framtagen manuellt): IllU1URY 23.90 1 „„ 19,61 (c) Metod 1: 23.90 is s1 23.90 (d) Metod 2: 916~1

41

Bild 15. (a) Originalbild: AMSJOVIS Rtl RUMMERS 100,00 32,50 530089 11 11111 (b) Hyllmärkning: ffi AtlSJNVl2 bli MNMMf NS ioo,00 32,50 ,IViUM I~mu (c) Metod 1: 1111111 100,0 ioo,00 32,501 (d) Metod 2: loo,00 32,50 530089 1 Ul1t Il

42

Bild 16. (a) Originalbild: 5111/LT~ Llr 1 060905 IIII 11 385,32 28,90 (b) Hyllmärkning (framtagen manuellt): sil %IYCSMtp{ side 385,32 28,90 :l ,, l ,,,W, 11 l 11 (c) Metod 1: 1111 385,32 385,32 28,90 (d) Metod 2: 3,25,32

43

Bild 17. (a) Originalbild: 06'1 ICS (b) Hyllmärkning: -till tal 34,90 (c) Metod 1: Kli 34.90 (d) Metod 2: <tom>

44

Bild 18. (a) Originalbild: RENT VIITYAll IR 38790 419879 III II.IR (b) Hyllmärkning: RENI VITTV ATl 1Kc 38,9 0 419879 tp~It1Y (c) Metod 1: 38,90' (d) Metod 2: R-" Vii 38,90

45

Bild 19. (a) Originalbild: <tom> (b) Hyllmärkning: ~* 11(1 .W, UMI a 22,90 (c) Metod 1: 22.90 ffi 22.9 (d) Metod 2: ffi 22.90

46

Bilaga B – Rektifiering Här följer resultaten av rektifieringen av samtliga 47 bilder. Tabell 6. Absolutbeloppet av vinkeln mellan hyllmärkningens underkant och horisontallinjen före respektive efter rektifieringen. Bild 1–19 är samma bilder som i Bilaga A.

Bild vinkelföre vinkelefter

1 0,0145 0,0129 2 0,0506 0,0487 3 0,0000 0,0000 4 0,0646 0,0534 5 0,0000 0,0019 6 0,0195 0,0150 7 0,0409 0.0094 8 0,0631 0,0000 9 0,0689 0,0056

10 0,0278 0,0187 11 0,0112 0,0093 12 0,0464 0.0056 13 0,0037 0,0037 14 0,0315 0,0337 15 0,0187 0,0149 16 0,0116 0,0118 17 0,0079 0,0040 18 0,0506 0,0054 19 0,0561 0,0077 20 0,0383 0,0000 21 0,0454 0,0000 22 0,0489 0,0464 23 0,0842 0,0019 24 0,1010 0,0000 25 0,0019 0.0019 26 0,0558 0,0056 27 0,0093 0.0037 28 0,0635 0.0447 29 0,0074 0,0150 30 0,0579 0,0000 31 0,0278 0,0319 32 0,0833 0,0245 33 0,0651 0,0224 34 0,0186 0,0223 35 0,0667 0,0282 36 0,0390 0,0056 37 0,0000 0,0019 38 0,2183 0,0056 39 0,0595 0,0056 40 0,0390 0,0019 41 0,0708 0,0281 42 0,0097 0,0118 43 0,0357 0,0326 44 0,0113 0,0133 45 0,0132 0,0114 46 0,0413 0,0092 47 0,0769 0,0211

47

Bilaga C – Implementering Samtliga delar som beskrevs i avsnitt 4 implementerades i Matlab (MathWorks Inc., 2005). För faltning med en gaussfunktion användes en Matlab-funktion av Tony Lindeberg (mydiscgaussfft.m) som modifierades så att variansen kan ändras separat i x respektive y-led (Denna fil finns ej tillgänglig för allmänheten).

en bärbar läsmaskin för synskadade – textlokalisering i en ... · pdf...

Documents