Archiv tagů metaobsah

Úvod

Koncem sedmdesátých let minulého století se objevují první Bulleting Board Systems (BBS) – jednoduché terminálové aplikace, k nimž jste se mohli připojit pomocí modemu a vytáčené linky. Pro skupiny registrovaných uživatelů nabízely jednoduché možnosti nahrání a stahovaní dat (v podobě binárních souborů nebo článků) a interakce s ostatními uživateli v podobě posílání zpráv, diskuzí či komentování poskytovaných dat. S příchodem internetu a služby World Wide Web (www) se na jednu stranu zvýšila uživatelská základna a množství publikovaných informací, ale zároveň se komunikace stala jednosměrnou – kvůli použité architektuře klient–server poskytovaly informace pouze ty instituce (např. univerzity, úřady, společnosti atd.), které pro to měly dostatečné zázemí. Ačkoliv obsah byl hypertextem snadno propojitelný, vytratil se z komunikace sociální aspekt – tedy propojenost jednotlivých uživatelů.

Web 2.0 společně s blogy, které jako jedna z jeho aplikací plní roli informační a komunikační základny mezi uživateli, vrací webu sociálně-uživatelský rozměr a zároveň mění povahu publikovaných obsahů. Obsah je rozložen (strukturován) na jednotlivé nezávislé obsahové entity – mikroobsahy a metaobsahy. Ty mohou existovat samostatně nebo mohou být (dalšími) uživateli či Web 2.0 aplikacemi samotnými volně spojovány a případně měněny v požadovaném kontextu. Tato „remixování“ probíhají za pomoci systémové integrace jednotlivých aplikací díky otevřenosti jednotlivých komunikačních formátů.

V tomto duchu je Web 2.0 souborem internetových služeb založených na zcela nových přísupech. Středobodem Web 2.0 je uživatel, jemu by měla být uzpůsobena uživatelsky příjemná prostředí, jemu musí být umožněno využívat jednotlivé aplikace bez ohledu na používané technologie, tak aby vše ve výsledku vedlo k jeho spokojenosti i užitku. Uživatel již také není anonymní, jeho konkrétní potřeby vstupují do popředí a mohou být lépe uspokojeny za přispění vyspělých umělých inteligencí aplikací, které na základě vstupů a chování uživatele dokáží personalizovat pomocí zmíněných mikroobsahů a metaobsahů výstupy, což znamená pro uživatele další přidanou hodnotu. Uživatelé též těží ze zmíněného sociálně-uživatelského rozměru, participace více uživatelů na službě přináší jednotlivým uživatelům vyšší užitek.

Na mnoha místech se v této práci setkáme s pojmy otevřenost, důvěra a znalost. Pro aplikace Web 2.0 jsou určující a při komunikaci pomocí blogů přímo zásadní. Blogy, blogování, blogeři změnili webové komunikační paradigma. Publikační revoluce, u jejíhož zrodu stáli, se dál promítá i do ostatních aplikací, ve které uživatelé nejsou pouze pasivními spotřebiteli, ale zároveň (spolu)tvůrci. Aplikace Web 1.0 umožňovaly spíš jednostrannou komunikaci, při které měli uživatelé vlastně jen dvě volby: konzumovat nabízený obsah nebo zavřít okno prohlížeče. Dostupnost, jednoduchost a variabilita aplikací Web 2.0 udělala z webové komunikace dialog (nebo, neologizmem, chcete-li: polylog). V takové komunikaci už nemá jedna strana navrch a všichni jsou (a to dříve poskytovatelé obsahů nebyli), pokud chtějí, aby šlo o komunikaci úspěšnou, nuceni dodržovat maximy principu kooperace, jak je z hlediska pragmatické lingvistiky popsal Paul Grice1.

Web 2.0 i blogy je také potřeba chápat nejen jako volně dostupné aplikace v prostředí veřejného internetu – další využití se nabízí v prostředí uzavřených sítí, kde plní řadu komunikačních i archivačních funkcí. Více o této problematice již v práci samotné.

  1. Maxima kvantity: Sděl informace akorát, tj. nebuď upovídaný ani příliš stručný; maxima kvality: Říkej pravdu, tj neklam ani nemluv o věcech nepodložených; maxima relevantnosti: Mluv k věci, tj. ne zbytečně kolem; maxima způsobu: Mluv jasně a správně, tj. jednoznačně a spořádaně. (Čermák, 2001)

Tagování

Uživatelské anotování zdrojů klíčovými slovy se asi poprvé objevilo u desktopových aplikací pro ukládání internetových záložek (bookmarks) a fotografií. Tento způsob manuálního předmětového třídění se nazývá tagování.

V prostředí webu byly prvními zástupci služby Del.icio.us, Flickr a Annotea. Annotea je derivát jazyka RDF pro anotaci webových zdrojů – pro uložení metadat (např. klíčová slova, komentáře, chyby, opravy atd.) o zdroji je používán speciální jazyk. Pro práci s tímto jazykem je pak třeba speciálních interpretů: Amaya jako samostatný specializovaný prohlížeč nebo řada zásuvných modulů pro obyčejné prohlížeče.

Flickr je už typická Web 2.0 sociální aplikace pro práci s fotografiemi a Del.icio.us je online sociální systém pro ukládání záložek (bookmarks). Díky častému použití tagů ve spojitosti se sociálními aplikacemi se také někdy používá označní kolaborativní tagování (collaborative tagging) nebo sociální indexace (social indexing) či folksonomie (folksonomy)1.

Pojem folksonomie poprvé použil Thomas Vander Wal v jedné e-mailové konferenci, když spolu s kolegy hledal výstižné označení pro klasifikaci, která vzniká při použití tagů:

„Folksonomie je výsledek osobního volného přiřazování předmětových hesel k informacím a objektům (čímkoliv s URL) pro následné osobní vyhledání. Toto přiřazování (tagování) se provádí v sociálním prostředí (sdíleném a otevřeném pro ostatní). Tagování je prováděno osobou, která dané informace zpracovává.“ (Vander Wal, 2005)

Vander Wal vnímá toto tagování spíše než jako kategorizaci jako reprezentaci osobního významu daného zdroje pomocí vlastního slovníku. Tag v tomto prostředí znamená propojení mezi zdrojem a jeho konzumentem.

  1. Slovní hříčka se slovy folk a taxonomy.

Síťové efekty

V kapitole věnované síle kolektivní inteligence byl zmiňován algoritmus Page Rank, který vyhodnocením vzájemných odkazů jednotlivých stránek stanovuje jejich hodnotu (užitek) pro zpřesnění výsledků fulltextového vyhledávání. Čím více uživatelů nalinkuje pomocí odkazů jednotlivou stránku, tím má tato stránka pravděpodobně i pro ostatní uživatele větší užitek. Tento princip, kdy pro stávající uživatele narůstá hodnota služby tím víc, čím víc nových uživatelů začne službu používat (za podmínky, že mezi uživateli existuje možnost interakce – vazba), se nazývá síťový efekt. Dalším a velmi výstižným příkladem může být fax nebo mobilní telefon. Pokud se do sítě připojí nový uživatel, nejen že z toho profituje on sám, ale nepřímo i ostatní uživatelé, protože mohou volat na číslo, na které předtím nemohli. Jinými slovy: pokud zařízení vlastní málo uživatelů, užitná hodnota pro tyto uživatele není příliš vysoká, protože je jen málo uživatelů, se kterými se můžeme spojit, a výrazně roste, pokud uživatelů přibývá.

Matematicky se snažil tento princip vyjádřit v osmdesátých letech Bob Metcalfe, když chtěl vysvětit svým zákazníkům, proč potřebují nakupovat více ethernetových karet. Jeho základní hypotéza (později nazvaná jako Metcalfův zákon) byla, že zatímco náklady na síť rostou lineárně s počtem přípojek, její hodnota roste čtvercem počtu uživatelů (kvadraticky). V síti s n uzly může každý navázat (n-1) spojení, celkový užitek sítě je tedy n(n-1), což je přibližně . Pokud bychom náklady na síť a takto vypočítaný užitek umístili na graf, v určitém bodě se křivky protnou a hodnota sítě pro uživatele převýší náklad. (Donát, 2001)

V posledních letech byl tento zákon podroben kritice, protože je zaměřen příliš technologicky (kalkuluje s počtem potencionálních spojení jednotlivých zařízení, které neodpovídá reálnému počtu spojení mezi uživateli). Bob Brisco se ho snažil reformulovat s ohledem na užitek jednotlivých spojení (tvrdí, že ne všechna mají stejnou hodnotu). V jeho podání lze užitek sítě s n uzly vyjádřit logaritmicky log(n). Laicky řečeno ve vztahu k telefonům: některé kontakty, jež máme uloženy ve svých adresářích, jsou pro nás důležitější než jiné.

David P. Reed zase tvrdí, že užitek rozsáhlých sítí, zvláště sociálních, roste exponenciálně množstvím připojených uzlů – jednotlivé uzly je možné seskupovat do podskupin, kdy může být vytvořeno v síti s n uzly až 2ⁿ-n-1 spojení, tedy přibližně 2ⁿ (Hendler, 2007).

Jedna nevýhoda, která se objevuje v souvislosti se vznikem síťových efektů, je možnost „uvěznění“ uživatelů v takové síti. Jako příklad lze použít třeba dominantní postavení kancelářského balíku MS Office. Vzhledem k tomu, že až do doby nedávno minulé používal k ukládání vlastní neveřejný a nestandardizovaný formát souborů, nebylo možné je používat v jiných kancelářských balících (a pokud ano, bylo nutné k přečtení formátu použít reverzní inženýrství) a Microsoft zase nepodporoval téměř žádné jiné cizí formáty. To pak znamenalo, že uživatelé byli nuceni používat MS Office, aby všichni byli schopni navzájem otevírat své soubory1.

Tedy čím více lidí začne používat určitý produkt (např. pro snadnou výměnu dat), tím hůře se později přechází na jiný produkt, protože by pro uživatele klesl užitek ze sítě. Tím se de facto mohou stát produkty „průmyslovými“ standardy. Velmi často bývají uváděny i různé „formátové“ souboje – jako Betamax vs. VHS, Blueray vs. HDDVD.

Je evidentní, že v prostředí Web 2.0 jde o síťový efekt, v němž nejsou jednotlivá propojení technologická (počet síťových karet), ale sociální (uživatelé) či sémantická (tagy).

Pomocí speciálních aplikací dochází k propojení jednotlivých uživatelů, kteří mezi sebou sdílí vlastní obsah (viz kapitola Obsah vytvářený uživatelem). Důsledek sociálních či komunitních propojení, kdy dochází k síťovým efektům, je dobře pozorovatelný na úspěchu videí na serveru YouTube. Uživatel vystaví na serveru zajímavé video, které publikuje na svém blogu (YouTube umožňuje vložit video pomocí otevřeného API přímo do příspěvku, takže se zdá, jako by bylo přímo součástí zobrazené webové stránky s příspěvkem) či pouze zašle e-mailem upozornění užší skupině uživatelů, která ho, pokud je video zaujme, šíří lavinovitě dál například pomocí svých blogů, kde ho mohou obohatit a „remixovat“ svým komentářem (viz kapitola o identifikaci a vyhledávání v blozích), což přináší hypotetickou přidanou hodnotu (užitek) pro všechny ostatní.

Síťový efekt lze pozorovat i u open source – principu otevřeného a komunitního vývoje aplikací, který je také jedním ze spouštěcích mechanismů, který stál u zrodu toho, čemu dnes říkáme Web 2.0. Více vývojářů spojí své síly k vytvoření aplikace, která bude mít díky tomu větší užitnou hodnotu. Pokud spojí v týmu síly například specialista na grafické prostředí aplikací s dokonalou znalostí uživatelských potřeb a chování s vynikajícím programátorem se značnou znalostí programovacích principů, užitek z aplikace bude hypoteticky vyšší, než kdyby ji vyvíjel každý sám.

  1. Nyní již, snad i díky fenoménu Web 2.0, začal Microsoft používat v nových verzích otevřený formát souborů, jehož standardizace byla právě schválena.

Mikroformáty

Mikroformáty jsou oblíbeným nástrojem pro reprezentaci sémantických informací v rámci běžné XHTML stránky pomocí tříd a atributů jazyka XHTML. Tyto atributy či třídy nijak neovlivňují (pokud nechceme) výsledné zobrazení na obrazovce počítače. To umožní zpracovat informace určené pro koncové uživatele i dalšími softwarovými nástroji (Khare, 2006).

Pro názornost si uveďme příklad mikroformátu hCard, který umožňuje vložit osobní nebo organizační kontakt založený na standardu vCard na webovou stránku:

<div class="vcard">
<div class="org">
<div class="organization-name"><strong>IDS Scheer ČR, s.r.o.</strong></div>
</div>
<div class="adr">
<div class="street-address">Vídeňská 55<br />639 00&nbsp;&nbsp;Brno<br /></div>
</div>
<div class="contact">
<dl class="tel">
<dt class="type">Telefon</dt> <dd class="value">+420 543 524 666</dd>
<dt class="type">Fax</dt> <dd class="value">+420 543 524 601</dd>
</dl>
<dl class="web">
<dt>E-Mail</dt><dd class="email"><a class="mail" href="mailto:info-cz@ids-scheer.com">Napište nám<span class="aural">to: IDS Scheer ČR, s.r.o.</span></a></dd>
</dl>
</div>
</div>

Obrázek 9 – Zápis adresních informací v mikroformátu hCard

Výsledné zobrazení mikroformátu na stránkách společnosti IDS Scheer ČR.

Je patrné, že se tento kód v normálním prohlížeči zobrazil zcela běžným způsobem. Větší podpora mikroformátů by měla přijít s novými verzemi prohlížečů Firefox a Internet Explorer – v těch by mělo být možné uložit uváděný příklad adresy rovnou do seznamu kontaktů v e-mailové aplikaci uživatele nebo rovnou zobrazit uvedenou adresu v některé z mapových služeb.

Z dalších mikroformátů můžeme jmenovat kupříkladu hCalendar pro reprezentaci informací o událostech, hResume pro životopisy a XFN (XHML Friends Network) pro zobrazení sociálních relací. Mikroformátů je celá řada a celá řada je ve stadiu připomínkování.
Mikroformáty jsou malinkým krůčkem na cestě k sémantickému webu, jehož vznikající standardy jsou zatím příliš složité pro jednoduché nasazení, ale lze očekávat, že se v součinnosti s rozvojem nových nástrojů s příjemným a jednoduchým uživatelským rozhraním budou objevovat čím dál častěji.

API a mash-upy

Mash-upy1 jsou webové aplikace, které kombinují data z více než jednoho zdroje pomocí rozhraní tak, aby vznikla určitá nová přidaná hodnota. Toto rozhraní – API (Application Programming Interface) poskytuje vývojářům sadu funkcí, které lze použít pro obsluhu aplikace jinými aplikacemi nebo službami.
Asi nejznámější ne-webové API jsou v prostředí Windows a jsou jakýmsi zjednodušením komunikace mezi tímto operačním systémem a aplikací. Základní úvaha je: Proč u každé aplikace programovat (navíc s chybami) zobrazení okna znova od začátku, pokud je (a má být) u všech vznikajících aplikací stejné. Namísto toho lze využít předpřipravenou funkci, kterou už někdo vytvořil dřív.

V prostředí webu začaly taková API poskytovat velké servery jako Google a Amazon, u nás začínají s poskytováním firmy Seznam a Atlas. Velmi kvalitní zdroj informací v tomto oboru je Programmable web – nabízí přehled hotových mash-upů, seznam jednotlivých API i možné scénáře užití.

Patrick Zandl uvádí ve svém článku velmi praktický způsob využití API mapového systému: Pokud potřebujete sledovat pohyb flotily svých vozidel, není nic snazšího, než je vybavit modulem pro vysílání GPS souřadnic a napsat pár řádek kódu, který zajistí zobrazení aktuální pozice vozidla na mapovém podkladu (Zandl, 2007).

Pro malé společnosti a jejich vývojáře je výhoda použití API jasná: Zřejmě by nikdy neměli kapacitu ani prostředky na vytvoření takových druhů aplikací, u kterých by jen náklady na zaplacení autorských licenčních poplatků například pro použití kartografických materiálů dokázaly výrazně převýšit jejich rozpočet. Pro velké společnosti jako Google je poskytování API také výhodné – je to pro ně reklama a svým způsobem i upevnění jejich silné pozice na trhu.

Odnoží klasických mash-upů jsou takzvané widgety (v pojetí společnosti Microsoft gadgety). To jsou jednoduché aplikace pro umístění informací (zdrojem dat není nutně web) na pracovní ploše operačního sytému pomocí speciální aplikace (Sidebar ve Windows Vista, Yahoo Widgets anebo Dashboard v MacOS) či v prostředí webu (například speciální widgetové šablony pro systém WordPress).

  1. Patrick Zandl tento pojem překládá jako Míchanice. Vzhledem ke slangové povaze toho slova se budeme držet raději originálu.

Agregační a syndikační technologie

Už se stalo jakýmsi nepsaným zvykem, že v prostředí internetu se určitá technologie používá zcela pro něco zcela jiného, než bylo její původní určení. Syndikování – tedy publikování části obsahu jiných stránek – není nic nového. Již v polovině devadesátých let se pro syndikování používaly pokročilé technologie – například strojová analýza HTML kódu; nevýhoda použití těchto technologií spočívala v nutnosti časté úpravy skriptů při změně kódů. Pro mnoho Web 2.0 aplikací se stalo samozřejmostí syndikování pomocí metadat ve formě tzv. feedů.

Zmatek jménem RSS
První pokus s použitím metadat pro syndikaci vyústil ve specifikaci Meta Content Framework firmy Apple, za nímž stál Ramanathan V. Guha. Meta Content Framework byl nasazen v aplikaci ProjectX (HotSauce) pro reprezentaci zdrojů v 3D prostředí. S návratem Steva Jobse do Apple byl tento zajímavý projekt bohužel zastaven.

Guha po zastavení projektu přešel do firmy Netscape, kde se setkal s vývojáři jazyka XML. Výsledkem bylo přepsání Meta Content Framework jako aplikace XML – tak se zrodil základ jazyka pro popis zdrojů – Resource Description Format (RDF), který byl přijat po úplném dopracování konsorciem W3C v roce 1997 jako standard. Přibližně ve stejné době přichází Microsoft se specifikací Channel Definition Format (CDF), který používá ve svém prohlížeči Internet Explorer 4, ale časem technologie upadá v zapomnění.

V roce 1999 firma Netscape vydává první verzi RSS 0.9 (RDF Site Summary), kterou používá ve svém portále My Netscape, tato specifikace byla derivátem jazyka RDF. Záhy je ale přepracována Danem Libbym, který formát zjednodušuje (opouští specifikaci RDF) a přidává části syndikačního formátu, který již dříve na svých stránkách používal David Winer, vzniká tak verze RSS 0.91 (Rich Site Summary). Po akvizici Netscape společností AOL je ale vývoj ze strany této korporace zastaven, dokonce ze stránek Netscape mizí DTD (Document Type Definition) tohoto formátu (později je obnoven).

To vedlo k ustanovení skupiny RSS-DEV, která měla ve vývoji formátu pokračovat. V roce 2000 tato skupina vydává novou verzi RSS 1.0, která se vrací k RDF a šířeji podporuje soubory metadat (Dublin Core). Bohužel tato verze není zpětně kompatibilní s řadou RSS 0.9x. Aby zmatku nebylo málo, Winer oznamuje, že pokračuje ve vývoji řady 0.91, o které tvrdí, že je intelektuálním vlastnictvím jeho společnosti UserLand Software. Z tohoto vývoje vzešlo několik dalších verzí a vyústilo ve vydání RSS 2.0 (Really Simple Syndication), které umožňovalo další rozšíření formátu pomocí XML (Bednář, 2006; Dočekal, 2003).

ATOM
Zmatek v RSS formátech vedl odbornou internetovou veřejnost k názoru, že je potřeba vytvořit nový formát, který by byl nezávislý na jakékoliv společnosti, mohl by být nasazen kýmkoliv, mohl být volně rozšiřitelný a hlavně, který by byl čistě a jasně vymezen . V roce 2003 Sam Ruby (je také autorem programovacího jazyka Ruby, kterému mnozí předpovídají velkou budoucnost na poli internetových aplikací) zřídil v prostředí wiki komunikační platformu pro diskuzi o takovém formátu. Přes počáteční porodní bolesti se zrodil formát ATOM 0.2 rychle následovaný verzí ATOM 0.3, který podpořila společnost Google jeho implementací do svých produktů. V roce 2005 organizace IETF schválila Atom Syndication Format 1.0 jako standard RFC 42871.

Hlavními rozdíly oproti RSS je možnost publikace nejen textových (HTML) informací, ale také XML či informací kódovaných pomocí Base-64 (kódování pro binární data, například video, dokumenty atd.).

Ben Hammersley ve své prezentaci pro O’Reilly Emerging Technology Conference zmiňuje také určitou ztrátovost informací při použití RSS. Říká, že v okamžiku publikace zdroje už s určitostí známe jeho název, tvůrce, dobu vzniku, jeho obsah i kde se nachází – není tedy důvod tato data při agregaci nepoužít. Přesně tato pole jsou při použití specifikace ATOM povinná, u RSS 2.0 informace o tvůrci, datu i jednoznačném identifikátoru (URI) v základních povinných polích schází. (Hammersley, 2005).
Zdá se, že v boji formátů dnes přesto vítězí RSS 2.0, i když není výjimkou, že servery zpřístupňují data v několika syndikačních formátech najednou.

Dlužno podotknout, že dnes už je zkratka RSS užívána jako obecné označení syndikace v kterémkoliv formátu.

Agregace obsahu
K masovému rozšíření syndikačních formátů přispěla i možnost agregace poskytovaného obsahu pomocí čteček – tvz. agregátorů (feed aggregators, feed readers). Aplikace v prostředí podobném e-mailovému klientu v určitém intervalu kontrolují, zda na server nepřibyly nové informace. Analogie s e-mailovým klientem není úplně náhodná – syndikační formáty v určitém směru nahradily e-mailové newslettery , které se s nadměrným rozšířením spamu staly jako nástroj pro komunikaci nepoužitelné.

Čtečky mohou stahovat obsah z více možných zdrojů a nabízejí další možnosti jeho filtrování. Tato vlastnost čteček se časem promítla i do samotných serverů – již tam je možné (před)vybrat, které informace budou odebírány. Dnes jsou čtečky zabudovány již do všech hlavních prohlížečů na trhu. Speciální možností jsou webové čtečky, kde se obsah v duchu webu jako platformy agreguje přímo na serveru aplikace. Velmi často jsou tyto čtečky zabudovány do blogovacích aplikací, takže jednotlivé blogy mohou být obohaceny i o informace z jiných zdrojů.

Objevuje se také debata, zda šířit pomocí syndikačních formátů celý obsah (tedy nejen krátký sumář) jednotlivých příspěvků. Plný obsah je pak možné pohodlně číst po stažení i na speciálních zařízeních (mobilní telefony, mp3 přehrávače atd.) v režimu offline. Hlavními argumenty pro jsou velmi snadná navigace a jednotné rozhraní pro čtení příspěvků z jednotlivých zdrojů. Proti stojí vyšší zátěž na připojení serverů (data jsou pravidelně stahována v krátkých intervalech).

Šíření speciálního obsahu
Pro šíření audionahrávek formou syndikačních formátů se vžil název podcasting2. Tyto nahrávky mohou být speciální čtečkou (např. Ziepod) staženy a automaticky uloženy do hardwarového mp3 přehrávače3. Analogicky k tomu existují ještě videocasty (je šířeno video) nebo photofeedy (jsou šířeny fotografie).

Feedburner
Feedburner je aplikace pro poskytovatele obsahu ve formě některého ze syndikačních formátů, který znovu publikuje s přidanou hodnotou. Tou je především možnost sledování, kolik lidí je přihlášeno k odběru, automatický ping (viz kapitola o identifikaci blogů) nebo přihlášení k odběru syndikovaného obsahu e-mailem. Je možné také do feedu nechat automaticky přidávat kontextovou reklamu. Pro odběratele pak především naformátování syrového XML feedu do grafické podoby, automatické překódování do různých formátů (RSS vs. Atom) dle aplikace, která si ho vyžádala.
Od roku 2007, kdy byla služba koupena společností Google, jsou její funkce dostupné zdarma. Služba má otevřené API pro možnost využití v dalších aplikacích.

  1. Vedle tohoto formátu je navržen také Atom Publishing Protocol (APP nebo AtomPub) pro vytváření a aktualizaci webových zdrojů na bázi HTTP protokolu. Zatím nebyl schválen žádnou autoritou jako standard.
  2. Označení vzniklo spojením slov cast = broadcast, vysílání, pod = iPod, dle velmi oblíbeného mp3 přehrávače společnosti Apple.
  3. U nás kupříkladu pořad Radia 1 Odvážné palce nebo ČRo

Použití standardů a přístupnost významných blogů

Pokud jsme v předešlých kapitolách nastínili, že základními principy blogů i Web 2.0 aplikací jsou vysoká míra otevřenosti a uživateli generovaný obsah, je podstatné, aby tyto principy mohl využít každý, například i ten, který je nucen v důsledku svého zdravotního stavu používat vybavení speciální.
Otázka používání standardů a přístupnosti (accessiblity) při vytváření webových stránek je jedním z nejvíce diskutovaných problémů mezi webmastery. Na počátku všech problémů stojí velmi překotný vývoj webu v devadesátých letech minulého století, kdy ustoupila do pozadí původní myšlenka webové stránky jako celistvého dokumentu, který byl propojen s ostatními pomocí hypertextových odkazů. S postupující komercionalizací webu a s ní spojenými marketingovými aspekty byly do stránek přidávány elementy, které spíše než obsahovou funkci plnily funkci prezentační, s jejich použitím mohly být stránky uživatelsky přitažlivější. Protože se vývojáři jednotlivých prohlížečů snažili (např. Microsoft, Netscape) vyhovět těmto trendům co nejrychleji a protože konsorcium W3C1 nebylo schopné na tyto trendy rychle reagovat, byla do zobrazovacích jader prohlížečů implementována vlastní jednostranná řešení. Výsledkem byla vzájemná nekompatibilita při zobrazování jednotlivých zdrojů.

Bylo by asi dobré poznamenat, že se konsorcium vůbec v průběhu vývoje nechovalo příliš racionálně. Například navrhované standardy a jejich vývojové stupně postrádají logické návaznosti (nekompatibilita CSS, CSS2 a budoucího CSS3 atd.).

Počátek nového století (poté co splaskla internetová bublina a poté co se objevilo množství nových technologií) znamená návrat k původním myšlenkám webu. Je kladen důraz na oddělení formátovací části stránek od obsahové a dodržování sémantických vlastností jednotlivých značkovacích jazyků. Tím je umožněno například rozdílné zobrazení (naformátování) na mobilním zařízení při zachování stejného obsahu (tzn. fyzicky existuje jeden HTML/XHTML, XML dokument a větší množství instrukcí v podobě CSS souborů pro konečné zformátování). Dodržení sémantiky je vhodné zvlášť u systémů pro automatickou obsahovou analýzu – zejména u vyhledávačů, které jsou pak schopny zohlednit „důležitost“ jednotlivých prvků stránek2. Neméně důležité jsou pak sémantická struktura a oddělení formátování pro různé čtečky (např. pro zrakově postižené – screen readers) a optimalizace pořadí aktivních prvků stránky (hyperlinky, formuláře) pro snadnou navigaci v obsahu stránky bez pomoci myši (např. klávesou Tab) (Gibson, 2007).

Zároveň se objevuje opět princip „uzamčení“, kdy jsou výrobci prohlížečů bohužel nuceni zachovávat možnost zobrazení i nestandardizovaných obsahů, kterých je v prostředí internetu (kvůli zmíněnému překotnému vývoji) stále mnoho (mrtvé a již neaktualizované stránky se zajímavým obsahem). Autoři stránek tedy nejsou ničím nuceni, aby standardy dodržovali.

Bohužel stále není na světě standard, který by dokázal oddělit hlavní obsah stránky (ve smyslu hlavního podstatného sdělení) například od navigačních prvků nebo prvků doplňkových (např. stejná hlavička nebo zobrazení kontaktní adresy na všech stránkách sídla). Toho se možná dočkáme, například při použití mikroformátů, až v tzv. sémantickém webu (někdy bývá označován jako Web 3.0) (Skenák, 2007).

Zásadním dokumentem pro tvorbu webových stránek, který se po přelomu století objevil, je soubor doporučení pro tvorbu webových zdrojů Manifest Dogma W4 sepsaný skupinou českých vývojářů kolem výrazné osobnosti českého internetu Petra Staníčka (Pixy). Ačkoliv tento Manifest vznikl v roce 2003 a může se zdát zastaralý, autor této práce jej považuje za nadčasový a nepřekonaný. V dokumentu se například doporučuje striktní dodržování standardů značkovacích jazyků konsorcia W3C při plném zachování sémantických významů jednotlivých značek (tagů – například nepoužívání tabulek k formátování vzhledu stránky) a využití alternativních popisů pro netextové informace použité na stránkách (například atribut alt v tagu img).

Podívejme se nyní na reálné aplikování těchto principů v prostředí blogů. Při výběru analyzovaných blogů byly použity osobní archiv odkazů, statistika Top100 vyhledávače Technorati (první dva) a statistika kategorie „Weblogy“ webového počitadla navrcholu.cz (první dva). Analýza kódu proběhla pomocí služby W3C Markup Validation Service (W3CV), validátoru kaskádových stylů W3C CSS Validator (W3CCSS), přístupnost byla testována službou Site Valet (SV). Doplňkově byl proveden test pro extrakci sémantiky službou Semantic Data Extractor (SDE). Analyzována byla vždy hlavní stránka bez uživatelských komentářů, které by mohly (ale správně neměly) výsledky ovlivnit v případě vložení nevalidního kódu komentujícím.

Techcrunch: Blog zabývající se internetem a novými technologiemi. Testováno 12. 4. 2008, 21.22.

  • W3CV: Použitý Doctype: XHTML 1.0 Transitional, 99 chyb – mnoho chyb způsobených nezakódováním speciálních znaků v URL adresách, ale objevují se i neplatné atributy, některé atributy scházejí úplně.
  • W3CCCS: 4 chyby.
  • SV: Stránka testem neprošla, ze zásadních chyb: chybí údaj o použitém jazyku, některé odkazy jsou otevírány do zvláštního okna prohlížeče bez předchozího upozornění uživatele, chybí textové alternativní popisy obrázků a objektů.
  • SDE: Test neproveden, nevalidní kód.

Engadget: Blog vlastněný společností AOL, zabývá se novými technologiemi. Testováno 12. 4. 2008, 23.06.

  • W3CV: Použitý Doctype: XHTML 1.0 Transitional, 164 chyb – např. není definován atribut type u javascriptových kódů, chybné kódování URL, chybějící uvozovky u atributů atd.
  • W3CCCS: 27 chyb.
  • SV: Stránka testem neprošla, ze zásadních chyb: tabulky nemají vyžadované záhlaví, chybí údaj o použitém jazyku, u některých formulářů chybí tlačítko pro odeslání, chybí metadata v záhlaví stránky (autor atd.).
  • SDE: Test neproveden, nevalidní kód.

Maxiorel.cz: Český magazínový blog o softwaru, poradenství a webových stránkách. Testováno 13. 4. 2008, 11.02.

  • W3CV: Použitý Doctype: XHTML 1.0 Transitional, 25 chyb – např. neukončené tagy, špatná sémantika (zdvojené tagy).
  • W3CCCS: Stránka je plně validní.
  • SV: Stránka testem neprošla, ze zásadních chyb: u formulářů chybí popis textových prvků pomocí
  • SDE: Test neproveden, nevalidní kód.

Marigold.cz: Osobní blog Patricka Zandla. Testováno 13. 4. 2008, 11.10.

  • W3CV: Použitý Doctype: XHTML 1.0 Transitional, 186 chyb – např. neukončené tagy, chybějící uvozovky u atributů, chybné kódování URL.
  • W3CCCS: 15 chyb.
  • SV: Stránka testem neprošla, ze zásadních chyb: chybějící záhlaví a popis u tabulek, pro formátování je užit tag font.
  • SDE: Test neproveden, nevalidní kód.

A List Apart: Magazínový blog o tvorbě www stránek. Testováno 13. 4. 2008, 11.25.

  • W3CV: Použitý Doctype: XHTML 1.0 Transitional, stránka plně validní.
  • W3CCCS: Stránka je plně validní.
  • SV: Stránka testem prošla s výhradami.
  • SDE: Sémantika byla analyzována, ovšem chybí některé navigační prvky.

Testovány byly i další náhodně vybrané blogy se stejnými výsledky. Jejich obsah ve velké většině není validní, výjimky tvoří pouze některé blogy, které se zabývají tvorbou webových stránek. V některých případech je nevalidita způsobena chybami v jed¬notlivých příspěvcích, v některých případech je nevalidní celá stránka. Nevalidita příspěvků by se snadno dala odstranit zabudováním vnitřního parseru do blogovací aplikace, jehož kontrolním mechanizmem by prošly všechny publikované příspěvky. Tím jsou nevalidní prvky buď automaticky opraveny, anebo nejsou publikovány. V případě nevalidity mimo příspěvky jde o nedbalost webmasterů, kteří zřejmě spoléhají na to, že většina prohlížečů obsah jejich blogů beztak zobrazí.

  1. Jehož hlavním posláním je vývoj standardů pro internet.
  2. Což je pak snadno „zneužitelné“ disciplínou SEO (optimalizace stránek pro vyhledávače). Je otázkou, nakolik by měl vyhledávač být strojový a nakolik by měl simulovat při posuzování důležitosti reálné zobrazení pro člověka/uživatele.

Závěr

Tato práce dokládá, že se Web 2.0 aplikace postupně stávají významnými a používanými službami, které si dokaží najít svou uživatelskou základnu. Je velmi pravděpodobné, že to, co dnes pro snazší momentální odlišení označujeme jako Web 2.0, se v budoucnu stane pouze evolučním milníkem internetové komunikace a výraz samotný budou používat jen historici internetu. Ostatně samotným uživatelům je asi už dnes lhostejné, zda se něco označuje tak či onak, ve velké většině je nevzrušují ani technické aspekty, pokud aplikace fungují tak, jak mají.

Blogy již představují etablované komunikační médium, jak pro malé skupiny uživatelů, tak jako doplněk tradičních médií s širokým záběrem. Ačkoliv velká většina uživatelů aktivně nevyužívá všechny formy komunikace, statistiky ukazují, že roste nová generace, která dokáže plně využít jejich potenciál.

Blogy se staly též silným nástrojem pro marketing společností, které je využívají pro komunikaci s (potenciálními) zákazníky. Mohou se vzdát části svého komerčního portfolia, aby ji nabídli uživatelům zdarma v podobě komunitní služby: například doposud placená služba uživatelské podpory se přesouvá na web a probíhá ve spolupráci s ostatními zákazníky. Bohužel pro mnohé společnosti je vidina ztráty okamžitého zisku důležitější než dlouhodobější a neměřitelný přínos ve formě lepšího vnímaní značky a spokojenosti zákazníků. Ve spojitosti s korporacemi se blogy také využívají jako prostředek k interní komunikaci.

Důraz na jednotlivé uživatele a užitek vyplývající pro ně z používání Web 2.0 aplikací je logickým krokem v souvislosti s narůstajícím počtem jednotlivých přípojek pro běžné (domácí) uživatele, a to nejen v podobě klasických počítačů, ale i mobilních zařízení, která umožňují připojit se prakticky odkudkoliv. V době před Web 2.0 bylo nejziskovější poskytování služeb korporátním uživatelům. Proto právě požadavkům těchto zákazníků byly přizpůsobovány funkce aplikací, které ale nebyly až tak funkční a uživatelsky příjemné pro koncové uživatele, ve smyslu jak je chápeme dnes. Také z tohoto důvodu se objevují nové přístupy při vývoji Web 2.0 aplikací – ať jsou to aplikace poháněné AJAXem nebo jinými RIA aplikacemi, které ve výsledku vedou k vyššímu uživatelskému komfortu. Tím se aplikace stávají komplexnějšími a jednoznačně vymezenými co do funkčnosti a nahrazují tak tradiční programy používané v osobních počítačích, internet se stává platformou pro běh těchto aplikací. Lze očekávat, že základní uživatelské programové vybavení bude časem plně nabízeno formou webových aplikací.

Jev remixace a (znovu)používání mikroobsahů a metaobsahů můžeme pozorovat v řadě příkladů uváděných v práci, viz použití části kódu z YouTube pro zobrazení videa například v příspěvku blogu (mikroobsah) nebo užití mikroformátů pro formátování specifických částí obsahů či RSS (metaobsah) v podobě mash-upů. Ačkoliv existuje celá řada rozhraní (API) pro zpracování takových obsahů, zatím postrádáme jednotící standardizaci, kterou by mohl přinést až tzv. sémantický web, ve kterém by jednotlivé entity obsahů byly jednoznačně identifikovány. Ve výsledku by to mohlo vést ke speciálním expertním syndikačním sídlům, která by indexovala (pomocí crawleru, který by byl upozorněn na nový obsah pomocí pingu) a zobrazovala pouze obsahy na dané téma. Například specializovaná aplikace zobrazující všechny publikované recenze hudebních alb, které by agregovala ze všech dostupných zdrojů za použití standardního formátu pro mikroobsah „recenze hudebního alba“. Nebo naopak tematická aplikace, která by agregovala vše (videa, příspěvky z blogů) týkající se jednotlivého interpreta. Bohužel se ukazuje, že mnoho obsahů, ačkoliv již dnes lze použít dostupné standardy, formalizováno není. A je otázka, zda se nebude i v případě sémantického webu v nějaké formě opakovat překotný vývoj HTML / XHTML / CSS, kdy byly nejdříve vymyšleny aplikace a až posléze se přistoupilo ke standardizaci1.

Dalším aspektem je užití umělé inteligence pro personalizaci výstupů pro jednotlivé uživatele, která se v jednodušší formě dá vypozorovat například u zobrazování kontextové reklamy na základě výsledků hledání ve vyhledávači Google. Tento vyhledávač také ukládá (pokud je mu to povoleno) jednotlivá uživatelská hledání a záznamy o tom, které zdroje z výsledků hledání byly uživatelem skutečně otevřeny (uživatelská preference), a tato data jsou posléze využívána pro zpřesňování dalších hledání (personalizace na základě uživatelské preference). Pro takový druh personalizace se využívá také „kolektivní inteligence“, kdy jsou výstupy aplikace ovlivněny i daty ostatních uživatelů (např. Last.fm nebo doporučující systém Amazonu).

Je třeba poznamenat, že v budoucnu bude třeba vymezit, jakým způsobem se může s takovou digitální stopou uživatele pracovat – uživatel by měl být jasně informován o míře dat, která jsou ve vztahu s ním zaznamenána a o tom, jakým smí být využita. Na závěr „Web-2.0-optimistické“ práce se možná, pro rovnováhu, patří umístit také varování: informace jsou to nejcennější, co máme. Web 2.0 je cestou k jejich sdílení, třídění a rozmnožování. Informace jsou to nejcennější, co máme, data nad zlato. Stejně jako se dají využívat, dají se také zneužít. Otevřenost, důvěra, znalost.
Otevřeně a s důvěrou očekáváme komentáře laskavých čtenářů i na tomto blogu.

  1. Zde bychom mohli navázat na komunikační maximy zmíněné v úvodu práce: v případě komunikace prostřednictvím Web 2.0 by asi bylo možné doplnit maximu způsobu: „Mluv jasně a správně, tj. jednoznačně a spořádaně.“ o doporučení „a dodržuj standardy“, případně v očekávání sématického webu přidat další maximu: „Opatři to, co říkáš, důsledně metadaty“.