email tisk

2007-11-18 17:36:23 | zobrazeno: 4385x
V tomto článku je k dispozici dokumentace k robotovi a k sémantickému vyhledávání.

Dokumentace k sémantickému vyhledávání

Projekt sémantického vyhledávání na webu lze rozdělit do několika fází:

  • 1. Příprava dat pro sémantické vyhledávání
  • 2. Vytvoření zjednodušené ontologie pro první testovací sémantické vyhledávání
  • 3. Metody vyhodnocení dotazu od uživatele
  • 4. Základní sémantické vyhledávání dle zjednodušené ontologie

1. Příprava dat pro sémantické vyhledávání

OBSAH

1.2. Programátorská dokumentace
- 1.2.1. Stručný přehled
- 1.2.2. Popis funkcionality jednotlivých celků
- 1.2.3. Vytvoření DB

1.3. Uživatelská dokumentace
- 1.3.1. Potřebné sw vybavení
- 1.3.2. Instalace a spuštění webové aplikace

1.2. Programátorská dokumentace

1.2.1. Stručný přehled

Celá webová aplikace se skládá z hlavního skriptu a z několika objektů, které zajišťují konkrétní funkcionalitu. Rozdělení funkcionality do objektů je poměrně důležitým prvkem vývoje webové aplikace, neboť se tím zajistí univerzálnost a oddělení jednotlivých funkčních celků. V případě aktualizace pak postačí vyměnit pouze konkrétní objekt a není třeba zasahovat do dalších částí aplikace.

Hlavní skript pro stahování informací z webu je umístěn v souboru spider.php. Tento skript si načte všechny další potřebné třídy a vytvoří si jednotlivé objekty. Pomocné funkce jsou umístěny v souboru inc/main_functions.inc.php. Manipulaci s databází zajišťuje třída uložená v souboru inc/articles_store.class.php. Obecný html parser je umístěn v souboru inc/md_html_parser.class.php. Volání parseru zajišťuje třída ze souboru inc/parser_control_pannel.class.php.

Export a zobrazení informací o počtu článků v databázi zajišťuje skript ze souboru info.php. Export článků do xml zajišťuje skript ze souboru xml_export_cp1250.php. Parametrem tohoto skriptu je počet článků, které chceme vyexportovat.

1.2.2. Popis funkcionality jednotlivých celků

spider.php .- hlavní skript zajišťující např. dodržení maximální délky běhu skriptu
articles_store.class.php – vrstva zajišťující komunikaci s databází, odstranění duplicit apod.
md_html_parser.class.php – obecný html parser, který zajišťuje manipulaci s html stránkou – odstranění html značek, nalezení podřetězce apod.
parser_control_panner.class.php – tento kontrolní panel obsahuje pouze funkci GetInterestingContentFromHtml, která volá html parser s nastavenými parametry pro aktuální zdroj dat. Výsledkem funkce je pole s obsahem z dané webové stránky.

Všechny skripty jsou hojně komentované. Z tohoto důvodu zde nebudu více popisovat funkcionalitu jednotlivých objektů a jejich funkcí.

1.2.3. Vytvoření DB

Pro správnou funkci této webové aplikace je nutné nejdříve vytvořit tabulky.

Sql dotazy pro vytvoření tabulek:

Create table md_articles_links_list (
	id Int NOT NULL AUTO_INCREMENT,
	link Text,
	status Smallint DEFAULT 0,
	created_date Datetime,
 Primary Key (id)) ENGINE = MyISAM;

Create table md_articles (
	id Int NOT NULL AUTO_INCREMENT,
	title Text,
	link Text,
	short_desc Text,
	content Text,
	info_source Text,
	info_article_created Varchar(60),
	created_date Text,
 Primary Key (id)) ENGINE = MyISAM;

1.3. Uživatelská dokumentace

1.3.1. Potřebné sw vybavení

Pro spuštění této webové aplikace je potřeba webový server (např. Apache) podporující automatické spouštění skriptů (Cron). Je třeba využít databázi MySql5 pro uložení nalezených dat. Pro spuštění skriptů je nutný interpret jazyka Php.

1.3.2. Instalace a spuštění webové aplikace

Nejdříve je potřeba vytvořit tabulky v databázi pro uložení článků (viz. 1.2.3. Vytvoření DB). Poté je nutné všechny soubory nakopírovat na webový server do příslušné složky. Na začátku souboru spider.php, xml_export_cp1250.php a info.php je nutné nastavit údaje pro přístup k databázi.

V případě, že tyto soubory jsou součástí větší webové aplikace, která sama zajišťuje připojení k databázi, lze poté připojení a odpojení z těchto souborů vynechat. Pro otestování funkčnosti této webové aplikace postačí otevřít soubor spider.php v libovolném webovém prohlížeči.

Abychom zajistili automatické stahování článků musíme na webovém serveru nastavit automatické spouštění skriptu spider.php. Informace o počtu článků v databázi a volání exportu zajišťuje soubor info.php. Stačí ho tedy pouze otevřít v prohlížeči.