René Olsthoorn's techtips: juni 2016

zaterdag 18 juni 2016

Vertical alignment floats

<div style="height: 200px; background-color: red">

<div style="display: inline-block; vertical-align: middle; background-color: white">
<p>Dit is een tekst</p>
</div>

<div style="display: inline-block; vertical-align: middle; background-color: white">
<div style="float: left">
<img src="http://placehold.it/30x30" />
</div>
</div>

<div style="display: inline-block; vertical-align: middle; height: 200px; background-color: white">
 
</div>

<div style="display: inline-block; vertical-align: middle; background-color: white">
<div style="float: right">
Dit is een nog tekst
</div>
</div>

</div>

donderdag 16 juni 2016

SOLR highlighting PDF werkt niet

Stel je doet het volgende op de server:

bin\solr.cmd start
bin\solr.cmd create -c gettingstarted
java -Dc=gettingstarted -Dauto -jar example\exampledocs\post.jar example\exampledocs\*.pdf

Vervolgens ga je kijken in de webbrowser of je een woord uit de pdf kunt vinden:
http://localhost:8983/solr/gettingstarted/select?q=test&hl=true&hl.fl=content

Inderdaad wordt het woord gevonden. Echter de highlighting werkt niet.

Nu kun je je afvragen of dat erg is, want PDF is een output formaat, geen input formaat.
De informatie welke woorden bij elkaar horen gaat verloren bij het genereren van een PDF. Bij een formaat als DOCX lukt dat wel.

Als ik bijvoorbeeld een tekst heb in een PDF met 3 kolommen, plaatjes en losse teksten, dan kan je PDF parser er geen wijs meer uit worden.

Daarom kun je beter SOLR vullen vanuit bestanden die een input formaat zijn. Heb je niets anders dan PDF, dan kun je het beste PDFBox gebruiken om in een client de parsing te doen en vanuit daar de SOLR te vullen.

vrijdag 3 juni 2016

SOLR

Documentatie: https://cwiki.apache.org/confluence/display/solr/Running+Solr

Installatie van example op windows:

java -Dc=gettingstarted -jar example\exampledocs\post.jar example\exampledocs\*.xml

Document verwijderen:
http://localhost:8983/solr/update?stream.body=
<delete><query>id:298253</query>
<query>entitytype:BlogEntry</query></delete>&commit=true

Alles verwijderen: <delete><query>*:*</query></delete>

http://localhost:8983/solr/pdf/select?q=jezus&hl=true
java -Dc=pdf -Dauto -jar example\exampledocs\post.jar pdf\*.pdf

http://localhost:8983/solr/pdf/select?q=jezus&hl=true&hl.fl=content