Hur man extraherar tabeller från PDF-dokument

Den här artikeln visar hur du extraherar tabeller från PDF-dokument(extract tables from PDF documents) . Du kanske har många PDF- filer som innehåller flera tabeller som du vill använda separat. Att kopiera(Copying) och klistra in dessa tabeller är inte ett bra alternativ eftersom det kanske inte ger den förväntade resultatet, därför behöver du några andra enkla alternativ som kan extrahera tabeller från en PDF -fil och spara dessa tabeller som separata filer.

De flesta av dessa PDF-tabellextraktionsverktyg(PDF table extractor tools) kan inte hjälpa om PDF- tabellen skannas. I ett sådant fall bör du först göra PDF-filen sökbar(make the PDF searchable)  och sedan prova dessa alternativ.

Extrahera tabeller från PDF-dokument

I det här inlägget har vi lagt till 2 gratis onlinetjänster och 3 gratisprogram för att extrahera tabeller från en PDF -fil:

  1. PDF till XLS
  2. PDFtoExcel.com
  3. Tabula
  4. ByteScout PDF-multiverktyg
  5. Sejda PDF-skrivbord.

1] PDF till XLS

PDF till XLS-tjänst

PDF till XLS är ett av de bästa alternativen för att extrahera tabeller från PDF . Den har två funktioner som gör den praktisk. Du kan hämta tabeller från 20 PDF- dokument tillsammans. Dessutom är PDF -tabellextraktionen automatisk. Den genererar utdata som en XLSX -fil. Om en PDF -fil har flera tabeller lagras varje tabell separat i olika ark med XLSX- utdatafil(XLSX) .

Öppna hemsidan(Open the homepage) för denna tjänst. Efter det, dra och släpp PDF - filer eller använd knappen LADDA UP FILER(UPLOAD FILES) . Varje uppladdad PDF -fil konverteras automatiskt till XLSX-formatfil. När utdatafilerna är klara kan du ladda ner dem en efter en eller ladda ner en ZIP -fil som kommer att innehålla alla utdatafiler.

2] PDFtoExcel.com

Extrahera tabeller från PDF-dokument

Tjänsten PDFtoExcel.com(PDFtoExcel.com) kan extrahera tabeller från en PDF på en gång men den stöder flera plattformar för att ladda upp PDF . Den stöder OneDrive , desktop , Google Drive och Dropbox- plattformar för att ladda upp en PDF . Dessutom är konverteringsprocessen automatisk.

Den här tjänstens hemsida finns här(here) . Där väljer du ett uppladdningsalternativ för att lägga till PDF . Efter det laddar den automatiskt upp och konverterar PDF -filen till Excel ( XLSX ). När utgången är klar får du nedladdningslänken för att spara utgångsfilen som innehåller PDF - tabeller.

Obs:(Note: ) Även om den här tjänsten nämner att den också kan extrahera tabeller från skannade PDF- filer, fungerade den inte för mig. Du kan fortfarande prova det för skannad PDF .

3] Tabula

Tabula PDF-extraheringsprogram

Tabula är en kraftfull programvara som automatiskt kan upptäcka tabeller som finns i en PDF och sedan låter dig spara dessa tabeller som TSV , JSON eller CSV -filer. Du kan välja alternativet att spara separata CSV- filer för varje PDF - tabell eller spara alla tabeller i en enda CSV -fil.

För att ladda ner denna PDF-tabellextraktor med öppen källkod , (open-source)klicka här(click here) . Det kräver också att Java(requires Java) körs och används framgångsrikt.

Extrahera ZIP -filen som du laddade ner och kör filen tabula.exe . Det kommer att öppna en sida i din standardwebbläsare. Om sidan inte är öppen lägger du till http://localhost:8080 i din webbläsare och trycker på Retur(Enter) .

Nu kommer du att se dess gränssnitt där du kan använda alternativet Bläddra(Browse) för att lägga till en PDF . Efter det, tryck på knappen Importera . (Import)När PDF -filen läggs till kan du se PDF -sidor i dess gränssnitt.

Använd knappen Autoupptäck tabeller(Autodetect Tables) och den kommer att markera alla tabeller som finns i den PDF -filen automatiskt. Du kan också markera en tabell manuellt genom att välja en viss tabell. Om du vill kan du också ta bort valda tabeller som(remove selected tables) du vill .

Detta hjälper dig att spara endast de tabeller du vill ha. När PDF -tabeller är markerade klickar du på knappen Förhandsgranska och exportera extraherade data .(Preview & Export Extracted Data)

Använd slutligen rullgardinsmenyn på den övre delen för att välja ett utdataformat och tryck på knappen Exportera . (Export)Detta kommer att spara PDF -tabeller i utdataformatfilen som du valt.

4] ByteScout PDF Multitool

ByteScout PDF Multitool- lägg till pdf och upptäck tabeller

Som namnet antyder kommer denna programvara med flera verktyg. Den har verktyg som att konvertera PDF till flersidig TIFF(convert PDF to multipage TIFF) , rotera PDF-dokument(rotate PDF document) , göra PDF osökbar(make PDF unsearchable) , optimera PDF(optimize PDF) , lägga till en bild till PDF(add an image to PDF) och mer. PDF -tabelldetektorfunktion finns också där, vilket är ganska fantastiskt. Fördelen med detta verktyg är att du också kan extrahera tabeller från skannade PDF(extract tables from scanned PDF) . Du kan upptäcka tabeller på flera sidor och sedan extrahera dessa tabeller som CSV- , XLS- , XML- , TXT- eller JSON -formatfiler. Innan extrahering låter den dig också ställa in ett sidintervall(page range)för att endast extrahera tabeller från specificerade sidor.

Du kan hämta denna programvara här(here) . Det är endast gratis för icke-kommersiellt bruk(free for non-commercial use) . Efter installationen, kör den här programvaran och använd alternativet Öppna dokument(Open Document) för att lägga till en PDF . Därefter klickar du på verktyget Identifiera tabeller(Detect tables) som markerats i bilden ovan. Detta verktyg finns under kategorin Dataextraktion(Data Extraction) .

Det öppnar en ruta där du kan ställa in villkor för att upptäcka tabeller. Till exempel kan du ställa in ett minsta antal kolumner, rader, minsta radbrytningar mellan tabeller, ställa in tabelldetekteringsläge till kantad eller kantlös tabell, etc. Använd alternativ eller behåll standardinställningarna.

Efter det, tryck på knappen Identifiera nästa tabell(Detect next table) i den rutan. Den kommer att identifiera och välja en tabell på den aktuella sidan. På det sättet kan du flytta till en annan sida och upptäcka fler tabeller.

upptäcka tabeller och spara pdf-tabeller med vald utdata

När du är klar, använd knappen Fortsätt till extrahering(Proceed to extraction) och välj utdataformat. Slutligen kan du använda alternativ för att spara tabellerna från den aktuella sidan eller definiera ett sidintervall och spara utdata.

Verktyget ger en tillfredsställande effekt. Men ibland kan den upptäcka annat innehåll i PDF och kanske inte kan extrahera tabeller från flera sidor. I så fall bör du använda den för att hämta och spara tabeller en efter en.

5] Sejda PDF Desktop

Sejda PDF Desktop med pdf till excel-konverterare

Sejda PDF Desktop är också en mångsidig programvara. Den kan optimera eller komprimera PDF(compress PDF) , lägga till vattenstämpel till PDF, ta bort begränsningar från PDF(remove restrictions from PDF) , redigera PDF- dokument, etc. Dess kostnadsfria plan har dock begränsningar. I gratisplanen kan endast 3 uppgifter per dag utföras. Dessutom är PDF- storleksgränsen 50 MB eller 10 sidor(10 pages) .

Du kan använda dess PDF till Excel-(PDF to Excel) konverteringsverktyg för att extrahera PDF -tabeller. Den upptäcker automatiskt tabellerna i PDF- sidor och låter dig spara dessa tabeller som XLSX eller CSV .

Dess nedladdningslänk finns här(here) . Efter installationen, använd PDF till Excel -verktyget från dess huvudgränssnitt. När du har valt det verktyget, använd knappen Välj PDF-filer . (Choose PDF files)Endast en PDF kan läggas till gratisplanen.

När PDF -filen läggs till kommer den att tillhandahålla knapparna Konvertera PDF till CSV(Convert PDF to CSV) och Konvertera PDF till Excel(Convert PDF to Excel) . Använd en knapp och sedan kan du spara utdata på önskad plats på din PC.

konvertera pdf-tabell till excel eller csv

Dess PDF- tabelldetekteringsverktyg är bra. Du behöver inte identifiera tabeller manuellt. Ändå kan det ibland innehålla annat textinnehåll som en PDF- tabell och lagra det i utdata. Men det övergripande resultatet är bra.

Det är allt.

Det här är några bra verktyg för att extrahera tabeller från PDF . Tabula -mjukvaran är effektivare än andra verktyg. Ändå kan du prova alla verktyg och se vilka som hjälper.

Liknande lyder:(Similar reads:)



About the author

När det kommer till teknik är inget viktigare än noggrannhet och kvalitet. På Microsoft är vi stolta över vår förmåga att ge våra kunder den bästa möjliga upplevelsen. Våra Windows- och iOS-produkter är några av de mest innovativa i branschen, och vi arbetar ständigt med att förbättra dem. Våra felfria PDF-filer är en annan anledning till att våra produkter är så framgångsrika. Vi vet att kvalitetskontroll är viktigt när det kommer till arbetsflöden och kommunikation, så vi är noga med att säkerställa att alla våra PDF-filer är felfria. Och slutligen, som en prylälskare förstår vi att att göra livet enklare alltid är en nyckelprioritet. Vi ser till att alla våra Lumia-enheter kommer med funktioner som NFC och CarPlay så att du enkelt kan dela filer med vänner och familj. Med dessa färdigheter,



Related posts