Citat:
Ursprungligen postat av
Binary
Att läsa ut data från PDF på ett tillförlitligt sätt kan vara svårt. Det skulle vara bättre om ni kunde få ut ett enklare format som json, xml eller txt. Med detta i åtanke skulle jag gissa på en vecka, ca 30.000 kr. Det är antagligen på tok för mycket för er. Du kanske kan hitta en indier på freelancer.com som kan göra det billigare. Var tydlig med krav och exempelfiler.
Är det en korrekt skapad PDF så ligger all info där som text som enkelt kan tolkas. PDF innehåller information i formatet PostScript och ska inte innehålla bilder där det ligger text, om den är korrekt gjord, så ingen OCR behövs.
Ett enkelt sätt att ta reda på detta utan att behöva kolla i filen, som dessutom ofta är komprimerad, är att öppna den i en PDF läsare och se om det är möjligt att klippa ut ren text från den och kopiera in i ett annat dokument.
I övrigt kan din tidsuppskattning och pris för ett bra utvecklat system vara rimligt enligt mig, beroende på kravspec/miljö/språk.