muncca
  • Angebot
  • Aktienregister
  • Über uns
  • Referenzen
  • Blog
  • Kontakt
  • Click to open the search input field Click to open the search input field Suche
  • Menü Menü

Schlagwortarchiv für: linked data

Du bist hier: Startseite1 / linked data

Beiträge

Wikidata Import in Apache Jena

Februar 14, 2019/in Tech/von corsin

Apache Jena ist ein Open Source Java Framework zur Entwicklung von Linked Data Applikationen. Teil von Apache Jena ist die Triple Store Datenbank TDB und der SPARQL Server und HTTP-Endpoint Jena Fuseki. Der folgende Beitrag dokumentiert den Wikidata Import in TDB auf einem Linux System.

Benutzte Versionen

  • Apache Jena 3.9.0
  • Wikidata (latest)
  • Ubuntu 18.04 LTS
  • Java OpenJDK 11 JRE

Systemvoraussetzungen
Für den Import wird leistungsfähige Hardware mit genügend RAM benötigt. Im Rahmen dieses Beitrags wurde ein Server mit Intel XEON CPU mit 32 Cores und 128 GB RAM eingesetzt. Nach dem Wikidata Import belegt der TDB Triple Store 699GB Festplattenplatz. Für die Sortierung des Index wird temporär wesentlich mehr Speicherplatz benötigt. Die folgenden Schritte lassen sich gut mit Docker automatisieren.

Wikidata herunterladen
Laden Sie in einem ersten Schritt die aktuelle Wikidata Version herunter.

 mkdir wikidata
 cd wikidata
 wget -c https://dumps.wikimedia.org/wikidatawiki/entities/latest-all.ttl.gz
 gunzip latest-all.ttl.gz

Apache Jena installieren
Installieren Sie Apache Jena, welche den benötigten tdbloader für den Aufbau des Index zur Verfügung stellt.

 cd ..
 wget -c http://mirror.easyname.ch/apache/jena/binaries/apache-jena-3.9.0.tar.gz
 tar -xvzf apache-jena-3.9.0.tar.gz

Import
Erzeugen Sie nun ein Verzeichnis Data für den Import von Wikidata.

 mkdir data

In einem weiteren Schritt importieren Sie mit dem tdbloader die Daten. Optional können die zwei Teilschritte data und index auch manuell nacheinander ausgeführt werden.

apache-jena-3.9.0/bin/tdbloader2 --loc data/ wikidata/latest-all.ttl > tdb1.log 2> tdb2.log &

…oder…

 apache-jena-3.9.0/bin/tdbloader2 --phase data --loc data/ wikidata/latest-all.ttl > tdb1.log 2> tdb2.log &
 apache-jena-3.9.0/bin/tdbloader2 --phase index --loc data/  > tdb1.log 2> tdb2.log &

Für die Index Erstellung wird genügend temporärer Speicherplatz benötigt. Die Standardeinstellungen des TMP-Directories können mit folgendem Befehl überschrieben werden:

export TMPDIR=/mypath/tmp/

Überprüfen Sie die Logdaten nach dem Import:

  13:58:47 INFO -- TDB Bulk Loader Start
  13:58:47 INFO Data Load Phase
  13:58:47 INFO Got 1 data files to load
  13:58:47 INFO Data file 1: /mypath/wikidata/latest-all.ttl
  12:41:35 INFO Data Load Phase Completed
  12:41:35 INFO Index Building Phase
  12:41:35 INFO Creating Index SPO
  12:41:35 INFO Sort SPO
  17:11:17 INFO Sort SPO Completed
  17:11:17 INFO Build SPO
  17:57:29 INFO Build SPO Completed
  17:58:04 INFO Creating Index POS
  17:58:04 INFO Sort POS
  04:20:54 INFO Sort POS Completed
  04:20:54 INFO Build POS
  05:08:01 INFO Build POS Completed
  05:08:39 INFO Creating Index OSP
  05:08:39 INFO Sort OSP
  10:15:12 INFO Sort OSP Completed
  10:15:13 INFO Build OSP
  11:04:06 INFO Build OSP Completed
  11:04:41 INFO Index Building Phase Completed
  11:05:19 INFO -- TDB Bulk Loader Finish
  11:05:19 INFO -- 162392 seconds

Mit tdbquery können Sie nun beliebige Abfragen auf dem Triple Store durchführen.

export PATH="$PATH:/mypath/apache-jena-3.9.0/bin"

tdbquery --loc /mypath/data "

PREFIX wd: <http://www.wikidata.org/entity/>
PREFIX wdt: <http://www.wikidata.org/prop/direct/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

SELECT ?charLabel ?groupLabel
WHERE {
	?group 	wdt:P31 wd:Q14514600;  		# ist eine Gruppe fiktiver Figuren
          	wdt:P1080 wd:Q931597.  		# aus fiktivem Marvel Universum
 	?char 	wdt:P463 ?group. 			# Mitglied der Gruppe
 	?char 	rdfs:label ?charLabel.		# Label der Figur
 	?group 	rdfs:label ?groupLabel. 	# Label der Gruppe
 	FILTER (LANG(?charLabel) = 'de').
 	FILTER (LANG(?groupLabel) = 'de').
}
LIMIT 1000
"

Quellen
Foto von Judeus Samson auf Unsplash

https://muncca.ch/wp-content/uploads/2019/02/tech-blog-3-scaled.jpg 1707 2560 corsin https://muncca.com/wp-content/uploads/2018/06/muncca_logo_340-156-300x138.png corsin2019-02-14 08:23:372019-02-14 08:23:37Wikidata Import in Apache Jena

Seiten

  • Aktienregister
  • Am Puls der Wissenschaft
  • Blog
  • Daten für Ihr Unternehmen nutzen
  • Datenschutzerklärung
  • Digitale Produkte und individuelle Software
  • Kontakt
  • Referenzen
  • Shop
  • Über uns
  • Unternehmenswebseiten

Kategorien

  • Aktienregister
  • Allgemein
  • Data Science
  • Tech

Archiv

  • Juni 2024
  • Mai 2023
  • Januar 2023
  • Dezember 2022
  • September 2022
  • Dezember 2021
  • September 2021
  • Juni 2019
  • Februar 2019
  • November 2018
© Copyright - muncca - Enfold Theme by Kriesi
  • Link zu LinkedIn
Nach oben scrollen Nach oben scrollen Nach oben scrollen

muncca benutzt Cookies, um das beste Webseiten-Erlebnis zu ermöglichen. Weiterführende Informationen erhalten Sie in der Datenschutzerklärung von muncca.

OKDatenschutzerklärung×

Cookie- und Datenschutzeinstellungen



Wie wir Cookies verwenden

Wir können Cookies anfordern, die auf Ihrem Gerät eingestellt werden. Wir verwenden Cookies, um uns mitzuteilen, wenn Sie unsere Websites besuchen, wie Sie mit uns interagieren, Ihre Nutzererfahrung verbessern und Ihre Beziehung zu unserer Website anpassen.

Klicken Sie auf die verschiedenen Kategorienüberschriften, um mehr zu erfahren. Sie können auch einige Ihrer Einstellungen ändern. Beachten Sie, dass das Blockieren einiger Arten von Cookies Auswirkungen auf Ihre Erfahrung auf unseren Websites und auf die Dienste haben kann, die wir anbieten können.

Notwendige Website Cookies

Diese Cookies sind unbedingt erforderlich, um Ihnen die auf unserer Webseite verfügbaren Dienste und Funktionen zur Verfügung zu stellen.

Da diese Cookies für die auf unserer Webseite verfügbaren Dienste und Funktionen unbedingt erforderlich sind, hat die Ablehnung Auswirkungen auf die Funktionsweise unserer Webseite. Sie können Cookies jederzeit blockieren oder löschen, indem Sie Ihre Browsereinstellungen ändern und das Blockieren aller Cookies auf dieser Webseite erzwingen. Sie werden jedoch immer aufgefordert, Cookies zu akzeptieren / abzulehnen, wenn Sie unsere Website erneut besuchen.

Wir respektieren es voll und ganz, wenn Sie Cookies ablehnen möchten. Um zu vermeiden, dass Sie immer wieder nach Cookies gefragt werden, erlauben Sie uns bitte, einen Cookie für Ihre Einstellungen zu speichern. Sie können sich jederzeit abmelden oder andere Cookies zulassen, um unsere Dienste vollumfänglich nutzen zu können. Wenn Sie Cookies ablehnen, werden alle gesetzten Cookies auf unserer Domain entfernt.

Wir stellen Ihnen eine Liste der von Ihrem Computer auf unserer Domain gespeicherten Cookies zur Verfügung. Aus Sicherheitsgründen können wie Ihnen keine Cookies anzeigen, die von anderen Domains gespeichert werden. Diese können Sie in den Sicherheitseinstellungen Ihres Browsers einsehen.

Google Analytics Cookies

Diese Cookies sammeln Informationen, die uns - teilweise zusammengefasst - dabei helfen zu verstehen, wie unsere Webseite genutzt wird und wie effektiv unsere Marketing-Maßnahmen sind. Auch können wir mit den Erkenntnissen aus diesen Cookies unsere Anwendungen anpassen, um Ihre Nutzererfahrung auf unserer Webseite zu verbessern.

Wenn Sie nicht wollen, dass wir Ihren Besuch auf unserer Seite verfolgen können Sie dies hier in Ihrem Browser blockieren:

Andere externe Dienste

Wir nutzen auch verschiedene externe Dienste wie Google Webfonts, Google Maps und externe Videoanbieter. Da diese Anbieter möglicherweise personenbezogene Daten von Ihnen speichern, können Sie diese hier deaktivieren. Bitte beachten Sie, dass eine Deaktivierung dieser Cookies die Funktionalität und das Aussehen unserer Webseite erheblich beeinträchtigen kann. Die Änderungen werden nach einem Neuladen der Seite wirksam.

Google Webfont Einstellungen:

Google Maps Einstellungen:

Google reCaptcha Einstellungen:

Vimeo und YouTube Einstellungen:

Andere Cookies

Die folgenden Cookies werden ebenfalls gebraucht - Sie können auswählen, ob Sie diesen zustimmen möchten:

Datenschutzrichtlinie

Sie können unsere Cookies und Datenschutzeinstellungen im Detail in unseren Datenschutzrichtlinie nachlesen.

Privacy Policy
Accept settingsHide notification only