<div style="height: 200px; background-color: red">
<div style="display: inline-block; vertical-align: middle; background-color: white">
<p>Dit is een tekst</p>
</div>
<div style="display: inline-block; vertical-align: middle; background-color: white">
<div style="float: left">
<img src="http://placehold.it/30x30" />
</div>
</div>
<div style="display: inline-block; vertical-align: middle; height: 200px; background-color: white">
</div>
<div style="display: inline-block; vertical-align: middle; background-color: white">
<div style="float: right">
Dit is een nog tekst
</div>
</div>
</div>
zaterdag 18 juni 2016
donderdag 16 juni 2016
SOLR highlighting PDF werkt niet
Stel je doet het volgende op de server:
bin\solr.cmd start
bin\solr.cmd create -c gettingstarted
java -Dc=gettingstarted -Dauto -jar example\exampledocs\post.jar example\exampledocs\*.pdf
Vervolgens ga je kijken in de webbrowser of je een woord uit de pdf kunt vinden:
http://localhost:8983/solr/gettingstarted/select?q=test&hl=true&hl.fl=content
Inderdaad wordt het woord gevonden. Echter de highlighting werkt niet.
Nu kun je je afvragen of dat erg is, want PDF is een output formaat, geen input formaat.
De informatie welke woorden bij elkaar horen gaat verloren bij het genereren van een PDF. Bij een formaat als DOCX lukt dat wel.
Als ik bijvoorbeeld een tekst heb in een PDF met 3 kolommen, plaatjes en losse teksten, dan kan je PDF parser er geen wijs meer uit worden.
Daarom kun je beter SOLR vullen vanuit bestanden die een input formaat zijn. Heb je niets anders dan PDF, dan kun je het beste PDFBox gebruiken om in een client de parsing te doen en vanuit daar de SOLR te vullen.
bin\solr.cmd start
bin\solr.cmd create -c gettingstarted
java -Dc=gettingstarted -Dauto -jar example\exampledocs\post.jar example\exampledocs\*.pdf
Vervolgens ga je kijken in de webbrowser of je een woord uit de pdf kunt vinden:
http://localhost:8983/solr/gettingstarted/select?q=test&hl=true&hl.fl=content
Inderdaad wordt het woord gevonden. Echter de highlighting werkt niet.
Nu kun je je afvragen of dat erg is, want PDF is een output formaat, geen input formaat.
De informatie welke woorden bij elkaar horen gaat verloren bij het genereren van een PDF. Bij een formaat als DOCX lukt dat wel.
Als ik bijvoorbeeld een tekst heb in een PDF met 3 kolommen, plaatjes en losse teksten, dan kan je PDF parser er geen wijs meer uit worden.
Daarom kun je beter SOLR vullen vanuit bestanden die een input formaat zijn. Heb je niets anders dan PDF, dan kun je het beste PDFBox gebruiken om in een client de parsing te doen en vanuit daar de SOLR te vullen.
vrijdag 3 juni 2016
SOLR
Documentatie: https://cwiki.apache.org/confluence/display/solr/Running+Solr
Installatie van example op windows:
java -Dc=gettingstarted -jar example\exampledocs\post.jar example\exampledocs\*.xml
Document verwijderen:
http://localhost:8983/solr/update?stream.body=
<delete><query>id:298253</query>
<query>entitytype:BlogEntry</query></delete>&commit=true
Alles verwijderen: <delete><query>*:*</query></delete>
http://localhost:8983/solr/pdf/select?q=jezus&hl=true
java -Dc=pdf -Dauto -jar example\exampledocs\post.jar pdf\*.pdf
http://localhost:8983/solr/pdf/select?q=jezus&hl=true&hl.fl=content
Abonneren op:
Posts (Atom)