Extrahera text från PDF- och bildfiler

Har du ett PDF- dokument som du vill extrahera all text ur? Hur är det med bildfiler av ett skannat dokument som du vill konvertera till redigerbar text? Det här är några av de vanligaste problemen jag har sett på arbetsplatsen när jag arbetar med filer.

I den här artikeln kommer jag att prata om flera olika sätt du kan gå tillväga för att försöka extrahera text från en PDF eller från en bild. Ditt extraheringsresultat kommer att variera beroende på typen och kvaliteten på texten i PDF -filen eller bilden. Dina resultat kommer också att variera beroende på vilket verktyg du använder, så det är bäst att prova så många av alternativen nedan som möjligt för att få bästa resultat.

Extrahera text från bild eller PDF

Det enklaste och snabbaste sättet att börja är att prova en PDF - textextraktionstjänst online. Dessa är normalt gratis och kan ge dig precis vad du letar efter utan att behöva installera något på din dator. Här är två som jag har använt med mycket bra till utmärkta resultat:

Extrahera PDF

extrahera pdf

ExtractPDF är ett gratis verktyg för att ta bilder, text och typsnitt ur en PDF -fil. Den enda begränsningen är att maxstorleken för PDF -filen är 10 MB. Det är lite litet; så om du har en större fil, prova några av de andra metoderna nedan. Välj din fil och klicka sedan på knappen Skicka fil . (Send file)Resultaten är normalt mycket snabba och du bör se en förhandsvisning av texten när du klickar på fliken Text .

ladda ner text

Det är också en trevlig extra fördel att det extraherar bilder ur PDF -filen också, ifall du behöver dem! Sammantaget fungerar onlineverktyget utmärkt, men jag har stött på ett par PDF -dokument som ger mig roliga utdata. Texten extraheras bra, men av någon anledning kommer den att ha en radbrytning efter varje ord! Inte ett stort problem för en kort PDF -fil, men definitivt ett problem för filer med mycket text. Om det händer dig, prova nästa verktyg.

OCR online

Online OCR tenderade vanligtvis att fungera för de dokument som inte konverterades ordentligt med ExtractPDF , så det är en bra idé att prova båda tjänsterna för att se vilka som ger dig bättre utdata. Online OCR har också några trevligare funktioner som kan vara praktiska för alla med en stor PDF -fil som bara behöver konvertera text på ett fåtal sidor snarare än hela dokumentet.

Det första du vill göra är att skapa ett gratis konto. Det är lite irriterande, men om du inte skapar det kostnadsfria kontot kommer det bara delvis att konvertera din PDF snarare än hela dokumentet. Dessutom, istället för att bara kunna ladda upp ett dokument på 5 MB, kan du ladda upp upp till 100 MB per fil med ett konto.

online ocr

Välj först ett språk och välj sedan vilken typ av utdataformat du vill ha för den konverterade filen. Du har ett par alternativ och du kan välja mer än ett om du vill. Under Flersidigt dokument(Multipage document) kan du välja Sidnummer(Page numbers) och sedan bara välja de sidor som du vill konvertera. Sedan väljer du filen och klickar på Konvertera(Convert) !

online ocr docs

Efter konverteringen kommer du till dokumentsektionen(Documents) (om du är inloggad) där du kan se hur många tillgängliga gratissidor du har kvar och länkar för att ladda ner dina konverterade filer. Det verkar som att du bara har 25 sidor gratis om dagen, så om du behöver fler än så måste du antingen vänta lite eller köpa fler sidor.

Online OCR gjorde ett utmärkt jobb med att konvertera mina PDF- filer eftersom det kunde bibehålla den faktiska layouten av texten. I mitt test tog jag ett Word -dokument som använde punkter, olika teckenstorlekar, etc och konverterade det till en PDF . Sedan använde jag Online OCR för att konvertera det tillbaka till Word -format och det var ungefär 95% samma som originalet. Det är ganska imponerande för mig.

Plus, om du vill konvertera en bild till text, kan online OCR göra det lika enkelt som att extrahera text från PDF -filer.

Gratis OCR online

Eftersom vi pratade om bild till text OCR , låt mig nämna en annan bra webbplats som fungerar riktigt bra på bilder. Gratis online OCR(Free Online OCR) var mycket bra och mycket exakt när jag extraherade text från mina testbilder. Jag tog ett par foton från min iPhone av sidor från böcker, broschyrer, etc och jag blev förvånad över hur bra den kunde konvertera texten.

gratis online ocr

Välj din fil och klicka sedan på knappen Ladda upp. (Upload)På nästa skärm finns ett par alternativ och en förhandsvisning av bilden. Du kan beskära den om du inte vill OCR hela grejen. Klicka sedan på OCR- knappen och din konverterade text visas under förhandsvisningen av bilden. Den har inte heller några begränsningar, vilket är riktigt skönt.

Utöver onlinetjänsterna finns det två gratisprogram för PDF - omvandlare som jag vill nämna om du behöver programvara som körs lokalt på din dator för att utföra konverteringarna. Med onlinetjänster behöver du alltid en internetanslutning(Internet) och det kanske inte är möjligt för alla. Jag märkte dock att kvaliteten på konverteringarna från gratisprogrammen var betydligt sämre än webbsidornas.

A-PDF Text Extractor

A-PDF Text Extractor är gratisprogram som gör ett ganska bra jobb med att extrahera text från PDF - filer. När du har laddat ner den och installerat den klickar du på knappen Öppna(Open) för att välja din PDF -fil. Klicka sedan på Extrahera(Extract) text för att starta processen.

apdf-extraktor

Det kommer att fråga dig en plats för att lagra textutdatafilen och sedan börjar den extrahera. Du kan också klicka på alternativknappen(Option) , som låter dig välja endast vissa sidor att extrahera och utvinningstyp. Det andra alternativet är intressant eftersom det extraherar texten i olika layouter och det är värt att prova alla tre för att se vilka som ger dig bäst resultat.

PDF2Textpilot

PDF2Text Pilot  gör ett ok jobb med att extrahera text. Den har inga alternativ; du lägger bara till filer eller mappar, konverterar och hoppas på det bästa. Det fungerade bra på vissa PDF-filer(PDFs) , men för de flesta av dem fanns det många problem.

pdf2text

Klicka bara på Lägg till filer(Add Files) och klicka sedan på Konvertera(Convert) . När konverteringen är klar klickar du på Bläddra(Browse) för att öppna filen. Din körsträcka kommer att variera med detta program så förvänta dig inte mycket.

Det är också värt att nämna att om du är i en företagsmiljö eller kan få tag på en kopia av Adobe Acrobat från jobbet, så kan du verkligen få mycket bättre resultat. Acrobat är uppenbarligen inte gratis, men det har alternativ för att konvertera PDF till Word , Excel och HTML -format. Det gör också det bästa jobbet med att bibehålla strukturen i originaldokumentet och konvertera komplicerad text.



About the author

När det kommer till teknik är inget viktigare än noggrannhet och kvalitet. På Microsoft är vi stolta över vår förmåga att ge våra kunder den bästa möjliga upplevelsen. Våra Windows- och iOS-produkter är några av de mest innovativa i branschen, och vi arbetar ständigt med att förbättra dem. Våra felfria PDF-filer är en annan anledning till att våra produkter är så framgångsrika. Vi vet att kvalitetskontroll är viktigt när det kommer till arbetsflöden och kommunikation, så vi är noga med att säkerställa att alla våra PDF-filer är felfria. Och slutligen, som en prylälskare förstår vi att att göra livet enklare alltid är en nyckelprioritet. Vi ser till att alla våra Lumia-enheter kommer med funktioner som NFC och CarPlay så att du enkelt kan dela filer med vänner och familj. Med dessa färdigheter,



Related posts