To, co přináší jednoznačný prospěch uživateli – tedy jednoduchá obsluha, podobnost s desktopovými aplikacemi, rychlá odezva – znamená značná úskalí pro tradiční vyhledávací nástroje založené na tzv. crawlingu. Při této metodě automatičtí roboti procházejí jednotlivá jedinečná URL, z nichž stahují obsah, který indexují. Při asynchronním přenosu, kdy jsou jednotlivé prvky stránky překreslovány po částech, se URL bohužel nemění, a robot tedy nemá možnost jak vyvolat a indexovat data. Vyvstává tedy problém – takto dynamicky generovaný zdroj není pro robota viditelný, a tudíž zůstává neindexovaný a později nevyhledatelný. Dle Matta Cuttse ze společnosti Google je „převážná část webových sídel zatím stále založena na statických stránkách, takže nyní nepředpokládáme výrazný problém“ (Garner, 2006). Zároveň doporučuje vyvíjet dvě verze webových sídel či aplikací – jednu pro uživatele a druhou pro crawlery. Samotné rozpoznání jakou verzi nabídnout proběhne na úrovni serveru vyhodnocením proměnné User-Agent, která je součástí požadavku HTTP protokolu. Řešení to není moc praktické – server musí mít neustále k dispozici aktuální tabulku všech proměnných User-Agent, o ekonomičnosti udržování dvojího obsahu ani nemluvě. Je tedy velmi důležité před nasazením AJAXu zvážit, který obsah má být vyhledatelný a u kterého si můžeme dovolit určitou neviditelnost (Fleiss, 2007).
identifikace
RIA a vyhledávací služby
Mikroformáty
Mikroformáty jsou oblíbeným nástrojem pro reprezentaci sémantických informací v rámci běžné XHTML stránky pomocí tříd a atributů jazyka XHTML. Tyto atributy či třídy nijak neovlivňují (pokud nechceme) výsledné zobrazení na obrazovce počítače. To umožní zpracovat informace určené pro koncové uživatele i dalšími softwarovými nástroji (Khare, 2006).
Pro názornost si uveďme příklad mikroformátu hCard, který umožňuje vložit osobní nebo organizační kontakt založený na standardu vCard na webovou stránku:
<div class="vcard">
<div class="org">
<div class="organization-name"><strong>IDS Scheer ČR, s.r.o.</strong></div>
</div>
<div class="adr">
<div class="street-address">Vídeňská 55<br />639 00 Brno<br /></div>
</div>
<div class="contact">
<dl class="tel">
<dt class="type">Telefon</dt> <dd class="value">+420 543 524 666</dd>
<dt class="type">Fax</dt> <dd class="value">+420 543 524 601</dd>
</dl>
<dl class="web">
<dt>E-Mail</dt><dd class="email"><a class="mail" href="mailto:info-cz@ids-scheer.com">Napište nám<span class="aural">to: IDS Scheer ČR, s.r.o.</span></a></dd>
</dl>
</div>
</div>
Obrázek 9 – Zápis adresních informací v mikroformátu hCard
Výsledné zobrazení mikroformátu na stránkách společnosti IDS Scheer ČR.
Je patrné, že se tento kód v normálním prohlížeči zobrazil zcela běžným způsobem. Větší podpora mikroformátů by měla přijít s novými verzemi prohlížečů Firefox a Internet Explorer – v těch by mělo být možné uložit uváděný příklad adresy rovnou do seznamu kontaktů v e-mailové aplikaci uživatele nebo rovnou zobrazit uvedenou adresu v některé z mapových služeb.
Z dalších mikroformátů můžeme jmenovat kupříkladu hCalendar pro reprezentaci informací o událostech, hResume pro životopisy a XFN (XHML Friends Network) pro zobrazení sociálních relací. Mikroformátů je celá řada a celá řada je ve stadiu připomínkování.
Mikroformáty jsou malinkým krůčkem na cestě k sémantickému webu, jehož vznikající standardy jsou zatím příliš složité pro jednoduché nasazení, ale lze očekávat, že se v součinnosti s rozvojem nových nástrojů s příjemným a jednoduchým uživatelským rozhraním budou objevovat čím dál častěji.
Identifikace a vyhledávání informací na blozích
Identifikace a vyhledávání informací na blozích
Při rychlosti, kterou se dokáže šířit informace blogosférou, je podstatná role speciálních vyhledávačů v blozích a aplikací pro „popularizaci obsahu“. Takových služeb je celá řada, proto si zkusme na příkladech alespoň popsat jejich základní funkcionality. Jednou pro všechny společnou je vytvoření seznamu populárních příspěvků v blogosféře, který informuje uživatele, o čem se aktuálně nejvíc píše. Takový druh aplikace se nazývá memetracker.
Jednoznačná výhoda speciálních vyhledávacích služeb je především v rychlém zaindexování obsahu. Běžné crawlery nespecializovaných vyhledávačů nenavštěvují webová sídla v pravidelných intervalech a nemusí zaindexovat všechny jejich stránky, takže nemohou ve výsledcích hledání nabídnout vždy aktuální informace.
Blogdex
Průkopníkem na tomto poli byl, dnes už nefunkční, Blogdex. V rámci univerzitního výzkumu byl navržen algoritmus, který vyhodnocoval blogové zdroje podle počtu citací jinými blogy a zároveň aktuálností těchto citací. Blogy byly indexovány automaticky pomocí crawleru. Výsledkem tohoto algoritmu byl zmíněný seznam, který sloužil blogerům jednak k ověření, jak si stojí jejich blog mezi jinými, ale také jako zdroj aktuálních témat a inspirace pro psaní vlastních příspěvků. Blogdex skončil v květnu 2006, přesto je dobré jej zmínit jako první aplikaci svého druhu.
Technorati
Velmi podobně funguje speciální vyhledávač Technorati, který již byl zmíněn v souvislosti s odhadem velikosti blogosféry o něco výše. Pro indexování blogových zdrojů využívá speciální funkcionalitu tzv. pingu. Jde o mechanizmus, pomocí kterého publikační systém upozorňuje indexační server, že byl uveřejněn nový příspěvek. Indexační server ihned po upozornění může příspěvek indexovat. Tím se snižuje doba, za kterou se příspěvky mohou objevit ve výsledcích vyhledávání. Vyhledávač Technorati nevyužívá pro indexaci samotné příspěvky, ale používá ke stažení informací agregační formáty RSS nebo ATOM.
Jednotlivé blogy jsou hodnoceny ze dvou hledisek. Z hlediska autority (Authority), což je počet ostatních blogů citujících blog (počet blogů, které odkazují na blog) za posledních šest měsíců. A s ohledem na pozici (Rank), což je počet blogů, které dělí blog od toho s nejvyšší autoritou. Tedy máme-li nejvyšší autoritu (nejvyšší číslo), máme i nejvyšší pozici (č. 1) (Carroll, 2007). Za pomoci těchto výpočtů je stanoveno pořadí Top 100 (nejlepších 100) dle jejich autority.
Pohybovat se můžeme v systému (mimo jiné) v rámci šesti základních kategorií (např. Technology), které se dále mohou dělit na podkategorie (např. Gadgets). Hledání je možné, krom fulltextu, přes tagy, které jsou automaticky převzaty ze zdroje nebo jsou zadávany uživateli. U tagů je k dispozici graf četnosti jejich výskytu za posledních třicet dní a seznam příbuzných tagů pro zpřesnění hledání. Výsledky lze řadit podle jejich čerstvosti nebo dle pozornosti jim věnované.
Technorati prošlo za rok 2007 několika bouřlivými změnami, které, subjektivně hodnoceno, celému systému neprospěly. Jednotlivé navigační stránky se znepřehlednily a uživatel není řádně informován, co si má vlastně v systému počít. Do ústraní také ustoupil ze všech indexovaných zdrojů generovaný tag cloud, jenž vypovídal velmi dobře o aktuálních trendech (nyní pouze seznam nejvíce hledaných pojmů). Křivka statistiky návštěvnosti vyhodnocovaná službou Alexa od začátku roku 2007 vytrvale klesá. 1
Technorati se na svých stránkách hlásí k podpoře otevřeného software a nabízí API s možností využití dat ze svého systému.
Digg
Memetracker Digg využívá k sestavení žebříčku populárních příspěvků vstupy od uživatelů. Každý uživatel má možnost vložit zajímavý odkaz na příspěvek, který se zařadí na Upcoming seznam, kde mají registrovaní uživatelé možnost hlasovat, zda chtějí zařadit odkaz do seznamu populárních odkazů. Tam je zařazen ve chvíli, kdy dosáhne určitého počtu hlasů. Při sestavování žebříčku je též brán ohled na dobu vzniku příspěvku, což znamená, že jako první v seznamu nemusí být nutně ten s největším počtem hlasů. V ČR funguje podobná služba linkuj.cz.
Jednotlivé odkazy jsou zařazovány dle typu (zprávy, videa, obrázky, podcasty) a pak do šesti základních kategorií s dalšími podkategoriemi a jsou zobrazeny ve formě tzv. článku (Article) s krátkým popisem a možností komentování. Digg je také sociální sítí, kde je možné vytvořit si seznam Přátel, jimi vložené odkazy se pak zobrazují zvýrazněně.
Digg dává možnost uživatelům hlasovat proti příspěvku (doslova pohřbít – Bury it). Jeho původní funkcí bylo jakési „samočištění“, aby se zamezilo vkládání spamu či nesmyslných odkazů. V kritice této služby bývá zmiňováno, že se objevuje klasický Long tail: malý počet uživatelů generuje nejvíc odkazů, které se objevují v populárním seznamu. Což v důsledku vede k jednostrannosti příspěvků. Projevuje se také princip „uzamčení“ (viz kapitola o sítových efektech), kdy se populární příspěvky stávají ještě populárnější.
Digg dává k dispozici otevřené API a sadu nástrojů pro hlasování přímo na straně blogu.
- Což nemusí být nutně důsledek změn na Technorati, ale kupříkladu toho, že se velké vyhledávací společnosti naučily lépe indexovat blogy. ↩