Stel je doet het volgende op de server:
bin\solr.cmd start
bin\solr.cmd create -c gettingstarted
java -Dc=gettingstarted -Dauto -jar example\exampledocs\post.jar example\exampledocs\*.pdf
Vervolgens ga je kijken in de webbrowser of je een woord uit de pdf kunt vinden:
http://localhost:8983/solr/gettingstarted/select?q=test&hl=true&hl.fl=content
Inderdaad wordt het woord gevonden. Echter de highlighting werkt niet.
Nu kun je je afvragen of dat erg is, want PDF is een output formaat, geen input formaat.
De informatie welke woorden bij elkaar horen gaat verloren bij het genereren van een PDF. Bij een formaat als DOCX lukt dat wel.
Als ik bijvoorbeeld een tekst heb in een PDF met 3 kolommen, plaatjes en losse teksten, dan kan je PDF parser er geen wijs meer uit worden.
Daarom kun je beter SOLR vullen vanuit bestanden die een input formaat zijn. Heb je niets anders dan PDF, dan kun je het beste PDFBox gebruiken om in een client de parsing te doen en vanuit daar de SOLR te vullen.
Geen opmerkingen:
Een reactie posten