Saltrød Horror Show nr. 45

av Odd de Presno.


Publisert i Datatid, Norge nr. 9/1990.


Optisk lesing av bokstaver

Problemet med innskanning av tekst, er at resultatet blir lagret i en grafisk bildefil. Du kan nok laste mange bildefiler inn i ditt tekstprogram, f.eks. WordPerfect, og få det skrevet ut. Normal tekstbehandling av teksten før utskrift er imidlertid umulig.

Her kommer OCR inn i bildet, eller Optical Character Reading, som det heter på engelsk. OCR-programmene kan konvertere tekst i grafiske filer til vanlig tekst.

OCR-programmene analyserer "bokstavbildene" i den grafiske filen og sammenligner dem med bokstavbilder i en innebygget tabell. Når programmet finner et bokstavbilde som er akseptabelt likt et som ligger i den grafiske filen, lagrer det bokstaven som hører til bokstavbildet i en ascii-fil. Resultatsfilen kan tas inn i tekstprogrammer og bearbeides på vanlig måte.

OCR-programmer var lenge kostbare verktøy for profesjonelle EDB-organisasjoner, f.eks. i banker. Nå har vi imidlertid fått tak i et sharewareprogram.

PRO-CR

Programmet ligger i selvuttrekksfilen PRO-CR.EXE (77KB). Det er laget av Gray Design Associates, P.O. Box 333, Northboro, MA 01532, USA. De ønsker et bidrag på US$ 42.00.

Programmet kan bearbeide konverterte telefax-filer, filer skannet inn med HP ScanJet, og filer i TIFF- (komprimert eller ukomprimerte) og PcPaintbrush PCX-format.

Det kan lese 8 til 30 punkters mono eller proporsjonale skrifttyper i en hastighet på opptil 260 ord pr. minutt. PRO-CR er optimalisert for 200 punkter pr. tomme (brukt i telefaks og i flere håndskannere) og 300 punkter pr. tomme, men du kan velge mellom oppløsninger fra 100 til 400 punkter pr. tomme.

Har du CGA, Hercules, EGA eller VGA er forhåndsinspeksjon med evt. manuell korrigeksjon av teksten mulig. Dette er f.eks. nyttig om teksten er en inngående PC-faks og originalen ble matet skjevt inn i sende-apparatet, om kontrasten er dårlig eller om oppløsningen er satt feil.

Du kan se konverteringen på skjermen, mens den skrider frem, og kan stoppe det hele når som helst om resultatet blir for dårlig. PROCR kan kjøres automatisk fra en batchfil eller fra menyer.

Erfaringer

Jeg var interessert i å se om PRO-CR kunne konvertere inngående telefaks-filer til ascii. På kontoret har vi PC-faxkortene Octofax og JT Fax. Alle fakser mottas som grafiske filer. JT Fax har programvare for konvertering til PCX-format. Semafor A/S selger programvare for konvertering til TIFF-format.

Maskinskrevet tekst i PCX-format ga best resultater, men det var slett ikke problemløst. Når tekst sendes pr. faks blir det ofte uklare eller sammenvokste bokstaver.

Best resultat med en maskinskrevet melding fra England fikk jeg ved å stille inn OCR-programmet på 100 punkter pr. tomme. Dette til tross for at faksbildet var overført i 200 punkter pr. tomme. Det ble imidlertid ikke godt nok til å være til mye nytte.

I flere av mine telefaksfiler står teksten opp/ned. Operatøren har matet dem gal vei inn i faksmaskinen. PRO-CR kan ikke snu bildene før bearbeiding. Dette må evt. gjøres med andre verktøy.

Jeg testet ikke programmet med innskannet tekst, men regner med at dette gir bedre resultater. OCR-behandling av telefakstekst er spesielt krevende. PRO-CR var likevel et lærerikt og interessant bekjentskap.

Hjelpemidler for batchfiler

Etter behandlingen av hjelpemidler for batchfiler i sist nummer trodde jeg det ville bli en stund til neste gang. Men så kom DOSUTILS.EXE (67KB).

Filen inneholder åtte små programmer. La meg omtale dem jeg synes er spesielt interessante:

CHG.EXE kan brukes for å endre linjene i en standard tekstfil. Tidligere har vi omtalt bl.a. FGREP og BCHANGE. CHG har følgende spesialiteter:

Du kan føye en tegnrekke (en string) til først eller ved slutten av alle linjene i en fil. Tegnrekken kan inneholde en eller flere blanke. Det kan bl.a. brukes for å flytte alle linjene fire kolonner til høyre - for i all hast å få bredere venstremarg.

En annen anvendelse kan være å føye DOS-kommandoer til først på hver linje i en filliste. Et annet program i pakken, QDIR.EXE, kan lage en filliste til dette formål. Uten DOS vanlige meldinger om filstørrelse, dato, volumnavn, antall filer, og underkatalognavn.

Eksempel:

Kommandoen "QDIR c:\cis\*.tmp > liste" ga følgende liste på PCen min:

JOBBER.TMP
DOWN.TMP
NB0510.TMP
0510.TMP

Kommandoen "CHG -del_c:\cis\ <liste >slett.bat" ga følgende resultat:

del c:\cis\JOBBER.TMP
del c:\cis\DOWN.TMP
del c:\cis\NB0510.TMP
del c:\cis\0510.TMP

Oppdager du at det var feil, at "cis" f.eks. skulle vært "tele", kan CHG løse problemet med en hurtig søk og erstatt.

MESG.EXE kan vise frem meldinger på skjermen, ta pause, la brukeren svare med yes, no eller "trykk en tast" og lage en outputfil. Spesialitet: fargerike vinduer for meldingene. Svakhet: fleksibilitet i hvilke alternativer brukeren kan velge mellom. Programmet SELMENU.EXE gir flere alternative valgmuligheter. (Min favoritt er fremdeles INKEY i filen INKEY.COM.)

PCED versjon 2.0

Når MS DOS holdes utenfor, er antakelig "DOS Prompt Deluxe" programmet PCED, det jeg bruker mest. Det er en videreutvikling av gratisprogrammet CED fra 1985 (i CED10D.COM, jfr. bla Datatid 2/90 s. 84).

Forleden oppgraderte jeg til PCED versjon 2.0. Pris: US$25.00 pluss US$ 10.00 i frakt. Nypris er US$50.00 pluss frakt. (Cove Software, PO Box 1072, Columbia MD 21044, USA.)

PCED, som CED, brukes til 1) redigering av DOS kommandolinje, 2) fremhenting av en gammel kommando og eventuell redigering av denne, 3) kjøring med "stenografimetoden" ved hjelp av synonymer (forkortede tastetrykk). Det gir dermed raskere databehandling for dem som bruker kommandometoden og gir besparelser i lagringskapasitet.

Det som fikk meg til å bla opp pengene, var først og fremst at deler av PCED kan legges i "expanded" hukommelse. Selv om programmet er 10 KB større, bruker det nå 8 KB mindre av vanlig RAM hukommelse. Det er motiv godt nok for meg. Dessuten kan jeg øke synonymlisten vesentlig uten å være redd for plassen.

Programmet er ikke for dem som er mest fortrolig med menyer. Er du kommandolinje-fan, er det imidlertid uovertruffet.

Bedre håndtering av "kommandobunken"

Kommandoene for håndtering av innholdet i "spillkortbunken" med kommandolinjer er vesentlig forbedret. Mens vi tidligere kun kunne bruke PilOpp og PilNed for å hente dem ut fra hukommelsen, kan vi nå bruke hurtigere metoder.

Kommandoen "CED SHOW" gir en liste på skjermen over de siste (opptil 255) kommandoene du har tastet inn. Foran hver kommando står nå et nummer. Slik:

8:sd \div
7:e e:\datatid\shs45.art
6:hlp
5:hlp queue
4:ced savestk d:stack
3:l d:stack
2:map
1:hlp save

Dette er de siste kommandoene jeg har tastet inn. På linje 8 står den eldste. Linje 7 inneholder kommandoen jeg bruker for å komme inn i denne artikkelfilen.

Nå vil jeg fortsette å skrive på artikkelen. Jeg taster "=7" og trykker ENTER og her er jeg. Mange tastetrykk spart.

Ville jeg i stedet inn i filen SHS46.ART i samme katalog, kunne jeg tastet "?7" for å få kommandolinje 7 opp på skjermen. Med pil bakover kunne jeg flyttet markøren over 5-tallet i filnavnet og endre det til 6. Et trykk på ENTER og SHS46.ART er lest inn i tekstprogrammet.

Må du plutselig boote opp på ny eller fjerne CED midlertidig fra hukommelsen, kan du lagre "kommandobunken" i en fil. Når du starter CED opp igjen senere, kan du laste inn filen og fortsette som om ingenting hadde skjedd.

Er du avansert, kan du bruke flere slike gamle "kommandobunker" for hver anvendelse av PCen...

Kommandofullføring

Tast inn begynnelsen på en kommando du nylig har brukt, trykk PilOpp, og der er den.

Du holder f.eks. på med å rydde opp i filer i tre kataloger, dvs. du titter på filer og sletter med DEL-kommandoen. Du bruker DIR, som i DIR F:\META\SC*.*, for å få en oversikt over filnavnene.

Du har nettopp slettet en fil i C:\TEST og vil nå se fillisten i F:\META. Trykk PilOpp en to eller tre ganger for å få kommandoen "DIR F:\META\SC*.*" på kommandolinjen. Trykk ENTER når den rette kommandoen er oppe og den blir utført. Mange tastetrykk spart.

Fire filer tilfredsstiller adressen F:\META\SC*.*. Du skal slette SCINET3B.TMP. Tast "DIR F:\META\SC" og trykk ned TAB-tasten inntil CED har fullført kommandoen med korrekt filnavn og endelse. TAB-tasten lar deg "bla" gjennom de filnavnene som tilfredstiller søkebegrepet.

Har du brukt en DIR-kommando tidligere som minner om den over (f.eks. F:\SOU\*.*), kan du taste "d" og bla deg bakover i "bunken" med tidligere kommandoer som begynner på "d" med PilOpp. Siden du også har brukt DEL-kommandoen, kan det være bedre å taste inn "di" før du trykker PilOpp.

Når du har F:\SOU-kommandoen fremme, kan du hurtig erstatte SOU med META\SC, trykke TAB og deretter ENTER.

Andre forbedringer

CEDs hjelpefunksjon er vesentlig forbedret. Du kan endre innholdet med en hvilken som helst editor. Du kan omdefinere funksjonstastene. Du kan få synonymene til å returnere til din opprinnelige katalog.

Environment variabler (de lagres med DOS SET-kommando) kan hentes og brykes i synonymer. Du kan f.eks. bruke variabler som SET, PATH, COMSPEC, dato, tid, stasjonsnavn, osv. i synonymene.

Det tar litt tid før du kommer frem til noe som passer og det sitter i fingrene. Valgmulighetene er mange, langt flere enn det jeg har omtalt her. Hvordan du bruker PCED er og blir en smakssak.


Kommentarer | Til artikkelmenyen | Til The Online World resources handbook
Det er forbudt å distribuere denne artikkelen - eller deler av den - i elektronisk, trykt eller kopiert form mot betaling.