Semalt Expertin opas Chrome Web Scraper -opetusohjelmasta

Jos käytät Google Chromea, selaimesi on laajennus, joka voi auttaa raaputtamaan verkkosivuja. Se tunnetaan nimellä '' Scrapper '', ja sitä voidaan käyttää ongelmitta. Scrapper auttaa raaputtamalla verkkosivuston sisältöä ja lähettämällä tulokset Google-asiakirjoihin.

Kuinka romuttaa verkkosivusto Scraper-laajennuksella?

1. Valitse Chrome Web Store Google Chromesta;

2. Suorita laajennuksissa haku '' Scrapper '';

3. Ensimmäinen hakutulos on 'Scrapper' -niminen laajennus.

4. Valitse painike, jonka luettelo on '' Lisää Chromeen ''.

5. Palaa takaisin Yhdistyneen kuningaskunnan parlamentin jäsenten luetteloon;

6. Napsauta seuraavaa linkkiä ;

7. Etsi nyt yksi MP ja varmista, että merkintä on merkitty;

8. Napsauta hiiren kakkospainikkeella valitaksesi "Raaputa samanlaista ..." -vaihtoehdon;

9. Scrapper-konsoli aukeaa toiseen ikkunaan;

10. Katsele kaavittua sisältöä kaavin konsolissa;

11. Varmista, että sisältö tallennetaan Google-laskentataulukkona, valitsemalla Tallenna Google-dokumenteihin ...

Laajennettu kaavinta

Ennen kuin kiinnität tätä reseptiä, on hyödyllistä ymmärtää HTML: n perusteet. Voit esimerkiksi lukea lyhyen HTML-esityksen HTML- linkin kautta

Kuvittelemme, että olemme kiinnostuneita kaikista elokuvista, joissa pääosassa oli kuuluisa italialainen näyttelijä Asia Argento.

1. IMDB: ssä on erittäin yksityiskohtainen arkisto toimijoista. Asia Argento -sivusto on: http://www.imdb.com/name/nm0000782/;

2. Täällä voit katsella kaikkia näyttelijäpelejä. Aloitetaan romuttaminen kiinnostavista tiedoista;

3. Yritä kaavittaa se tavalla, jota se on kuvattu yllä;

4. Näet, että luettelo on vähän vääristynyt. Tämä johtuu siitä, että tässä oleva luettelo voidaan rakentaa eri tavalla;

5. Pään kaavin konsolin. Ylhäällä vasemmalla näet pienen ruudun, jossa lukee XPath;

6. Xpath on eräänlainen kyselykieli, joka toimii XML: llä ja HTML: llä;

7. XPath voi auttaa sinua etsimäsi sivun osien löytämisessä. Seuraava asia on löytää sopiva elementti ja kirjoittaa sille XPath;

8. Järjestämme nyt pöytämme;

9. Näet, että nykyinen XPath, jolla on kaikki tarvittavat tiedot, on "// div [3] / div [3] / div [2] / div";

10. XPath kehottaa järjestelmää tarkastelemaan HTML-dokumenttia ja valitsemaan kolmannen elementin, sitten toisen elementin ja sitten ne kaikki;

11. Mutta haluaisimme, että tietomme erotetaan toisistaan;

12. Käytä konsolin sarakkeita scrapperia varten saadaksesi tämä aikaan;

13. Löydämme ensin otsikkomme. Käytä tarkista elementtiä nähdäksesi otsikon;

14. Tarkista otsikon nimiö. Lisää tunniste XPath: iin;

15. Lauseke näyttää toimivan asianmukaisesti, joten tee siitä ensimmäinen sarake;

16. Korvataan osassa "Sarakkeet" ensimmäisen sarakkeen nimi "otsikolla";

17. Lisää XPath siihen;

18. Sarakkeessa XPath: t ovat suhteellisia ja se tarkoittaa, että "./b" valitsee <b> elementin

19. Lisää otsikkosarakkeen XPath-kohtaan "./b" ja valitse "kaavin";

20. Jatkakaamme nyt vuotta. Vuodet löytyvät yhden aikavälin sisällä;

21. Luo uusi sarake valitsemalla otsikon sarakkeen vieressä pieni plus;

22. Luo sarake "vuodelle" käyttämällä XPath "./span";

23. Napsauta kaavinta ja katso kuinka vuosi lisättiin;

24. Valmis!

mass gmail