ScubaNET in revista CARIERE


Anul trecut am publicat 2 articole referitoare la cautarea in Internet si Internetul de adancime gratie celor de la revista Cariere carora le multumesc inca odata pentru oportunitatea oferita.

Voi reda aici textul acestora pentru a crea o vizibilitate mai mare asupra acestei problematici.

ScubaNet – scufundari in Internetul de adancime
http://www.cariereonline.ro/index.php/articole/5121

Intr-un studiu recent, IDC prezice ca in 2010 volumul informatiilor din universul digital va ajunge la un trilion de gigabytes. Cea mai importanta parte a acestora sunt informatii nestructurate (articole, fisiere text, imagini, video etc.). Incercati sa scrieti cate zerouri are un trilion… sunt multe! O parte semnificativa din acest univers digital sunt informatii ce contin spatiul Internet, iar restul sunt informatii stocate in zona companiilor sau in cea personala.

Imaginea coplesitoare a carului cu fan in care trebuie gasit acul – informatia care ne intereseaza – ne face sa intelegem de ce e importanta formarea abilitatilor de cautare. Inca un argument de forta este acela ca dupa 11 septembrie 2001, NATO a schimbat radical strategia propriului sistem de surse.In prezent, peste 80% dintre informatiile pe care aceasta organizatie se bazeaza sunt culese din Internet. Exista chiar si un ghid NATO pentru exploatarea Internetului, pe care va recomand sa-l vizitati.
Anticipez ca cea mai mare parte dintre cititori sunt curiosi si au deschis deja un Internet Explorer, au accesat Google si au tastat un set de cuvinte-cheie, poate „NATO Internet guide”. Si mai anticipez si ca adesea vi s-a intamplat sa fiti dezamagiti, sa nu gasiti ceea ce doreati pe prima pagina, poate nici pe a doua… Ati fost, probabil, nevoiti sa schimbati termenii de cautare pentru ca motorul sa va ofere rezultate mult mai relevante si sa fiti foarte creativi in a gasi solutii pentru a va atinge scopul. Dar asta v-a facut sa pierdeti ore intregi in fata browserului web, mai ales daca informatiile de care aveati nevoie urmau sa fundamenteze, de exemplu, o decizie importanta.

De ce avem nevoie de antrenarea abilitatilor de cautare?
Internetul poate fi separat in doua zone: partea de suprafata, adica informatii care pot fi regasite relativ usor cu un motor de cautare, si Internetul de adancime, „Deep Web” sau „Invisible Web”, compus din informatii care din diverse motive nu sunt in aria de acoperire a nici unui motor de cautare. Imaginea care descrie cel mai bine proportia dintre cele doua zone este un iceberg din care intre 5% si 10% poate fi vazut deasupra nivelului marii, restul fiind scufundat si invizibil fara instrumente adecvate.

Ca atare, obiceiul nostru de a rezolva problemele de informare cu Internetul, folosind exclusiv un motor de cautare, ne limiteaza mult orizontul informational. O cautare initiala cu Google ne poate oferi experienta necesara si controlul asupra problemei noi, conectand-o la sistemul nostru de cunostinte. Un urmator pas este sa ne scufundam adanc, in zona Internetului de adancime.

Idei pentru scufundarea in Internetul de adancime
Din diferite motive tehnice, un site web nu poate fi citit de un motor de cautare, adica el nu imi va returna un link catre resursa dorita, oricat de abil as fi in setarea cuvintelor-cheie. Aceasta se intampla din ratiuni de protectie. De exemplu, in zona blogurilor este foarte folosita practica de a seta aceasta protectie printr-o simpla bifa in spatiul de administrare a blogului.

Un alt motiv pentru care un motor esueaza in a indexa un site poate fi complexitatea structurii ierarhice a acestuia. Motoarele de cautare se pot opri pe un anumit nivel in site, fara sa mearga mai departe. Sau sunt zone din site-uri protejate cu parola doar pentru utilizatorii inregistrati pe acel site. Un motor de cautare nu se poate inregistra. De aceea, toata informatia din spatele acelui „Login” va ramane invizibila pentru noi, cei care ne bazam pe motorul respectiv.

Insa cele mai importante bariere pentru motoarele de cautare sunt bazele de date online, accesibile doar dupa trecerea printr-un formular de interogare. De exemplu, o baza de date cuprinzand expertii afiliati la o anumita organizatie profesionala, care poate fi accesata prin intermediul procedurii mentionate mai sus, va ramane invizibila pentru motorul de cautare. Acesta nu poate completa la randu-i alte formulare de cautare, lipsindu-i „inteligenta” umana.

Acestea sunt principalele cauze pentru care cea mai mare parte a informatiei si cea mai relevanta ne poate ramane ascunsa daca ne limitam la un simplu motor specializat. Una dintre solutiile la aceasta problema este crearea si gestionarea unui sistem propriu de resurse Internet. Am in vedere acele site-uri dedicate pe domenii, multe dintre ele continand colectii de link-uri extrem de relevante. Un alt sfat este sa folositi motorul intern al site-urilor pe care ajungeti pentru a gasi informatii de ultima ora. Bineinteles ca exista multe alte bune practici pentru o scufundare in Internetul de adancime, insa spatiul acestui articol nu permite o dezvoltare mai ampla.

In incheiere, gasiti Ghidul NATO pentru exploatarea Internetului folosind in Google urmatorul sir de cuvinte cheie: „NATO Intelligence Exploitation of the Internet” filetype:pdf.

 

 

ScubaNet II – bune practici de cautare pe Internet
http://www.cariereonline.ro/index.php/articole/5189
In articolul anterior, „ScubaNet – scufundari in Internetul de adancime”, am expus principalele motive pentru care avem nevoie de anumite tehnici si abilitati de cautare atunci cand folosim Internetul pentru documentare. Acum veti afla un set de bune practici pentru cautarea si documentarea de pe Internet.   

Cautarea la 360°
Descrierea cautarii este un exercitiu mental prin care privim problema noastra la 360 de grade. Care este subiectul cautarii? Din ce perioada sa fie datate rezultatele? Din ce arie geografica sau in ce limba dorim sa avem informatii? In ce format sa fie acestea? Exista sinonime sau omonime in termenii pe care ii caut? Raspunzandu-ne la aceste intrebari, putem salva zeci de minute pierdute si generam un set de rezultate relevante pentru noi.

Focalizarea/defocalizarea cautarii
Cele mai mari motoare de cautare care isi disputa intaietatea in Internet sunt Google, Yahoo si MSN. Acestea au si cele mai mari baze de date de informatii indexate din web. De obicei, prima cautare numara un set simplu de cuvinte-cheie si va genera un numar mare de rezultate. Nu pierdeti timpul navigand prin zecile de pagini returnate. Este vremea sa focalizati cautarea prin introducerea de noi cuvinte de cautare. Puteti sa folositi cuvinte tehnice pentru a creste relevanta rezultatelor sau puteti sa excludeti rezultatele din domenii care nu va intereseaza. Folositi cu incredere

operatorii logici sau formularele de cautare avansata pe care un motor de cautare vi le ofera. Mai multe detalii despre operatorii logici puteti gasi pe Wikipedia la

http://en.wikipedia.org/wiki/Boolean_logic.

In situatia in care nu gasiti informatii sau acestea sunt prea putine, aplicati tehnica defocalizarii. Eliminati cuvintele-cheie sau schimbati termenii specifici ori tehnici cu unii generali, alternativi. Greselile de scriere sunt omenesti si acestea pot sa ascunda anumite rezultate, asa ca incercati sa folositi in cuvintele-cheie si greselile uzuale.

Verificarea informatiilor
Nu luati de bune informatiile pe care le gasiti, mai ales daca vi se par spectaculoase. Treceti-le prin urmatoarea logica de verificare: cine este autorul lor, cand au aparut, au fost preluate de undeva sau aceasta este sursa lor originala, cata incredere putem avea in sursa, se pot verifica aceste informatii din alte surse independente? Folosind urmatorul link puteti afla mai multe despre evaluarea continutului de pe web:

http://library.albany.edu/usered/eval/evalweb .

Acoperirea
Folositi cel putin cele trei motoare de cautare generale indicate. Folositi, de asemenea, motoarele dedicate specifice domeniului. Daca va intereseaza informatii din blogosfera, este important sa folositi si un motor specializat cum ar fi cel de pe site-ul http://www.technorati.com/.
Internetul de adancime
Internetul de adancime este util, mai ales atunci cand dorim informatii de ultim moment, care inca nu au aparut in bazele de date ale motoarelor de cautare, nefiind indexate de catre acestea. Pot fi noi joburi listate, ultimele noutati sau schimbari de ultima ora in programele de zbor. Mai cautam in Internetul de adancime atunci cand avem nevoie de informatii depozitate in baze de date, cum ar fi: directoare de telefoane sau de persoane, informatii despre companii etc. Pentru a avea acces la aceste informatii este util sa cunoastem sursele unde pot fi plasate acestea. De exemplu, daca ma intereseaza informatii publice despre companiile din Romania, pot sa apelez la bazele de date ale Ministerului Finantelor, la serviciul online al ONRC sau la un catalog privat (www.listafirme.ro).

Cu acest algoritm si cu inspiratia voastra in a inventa cei mai relevanti termeni de cautare, nu va trebui sa petreceti mai mult de 10-30 de minute pentru a gasi setul optim de informatii. Restul timpului il puteti folosi citind, aprofundand si analizand informatiile astfel obtinute.

  1. No comments yet.
(will not be published)
  1. No trackbacks yet.