Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Web Science 29.09.2011

1,031 views

Published on

Web Science - Day 3.

A seminar at the University of Latvia.

Published in: Education, Technology
  • Login to see the comments

Web Science 29.09.2011

  1. 1. Web Science<br />3. nodarbība<br />29.09.2011<br />
  2. 2. Jaunumi<br />
  3. 3. Video<br />O’Reilly Strata conference<br />Data Bootcamp (5 stundas video)http://shop.oreilly.com/product/0636920018506.do<br />Meaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.do<br />O’Reilly OSCon – data sessions<br />
  4. 4. Kā gāja ar 500 tweetu savakāšanu<br />
  5. 5. 500 tweeti<br /><ul><li>Ko izmantoji?
  6. 6. Kādi rezultāti?
  7. 7. Kādas problēmas?
  8. 8. Pārdomas?</li></li></ul><li>Jaunais datu vākšanas uzdevums<br />twitter streaming api<br />
  9. 9. Streaming API<br />https://dev.twitter.com/docs/streaming-api<br />
  10. 10. Uzdevums<br /><ul><li>izvēlētiesvienu no Streaming API funkcijām:
  11. 11. datuvākšanaipēcnorādītajiematslēgasvārdiem
  12. 12. datuvākšanaipēcizvēlētāmģeogrāfiskajāmkoordinātēm
  13. 13. savākt 1000 Twitter ziņas
  14. 14. + analizēt un/vaivizualizēttās</li></li></ul><li>Idejas vizualizācijai<br /><ul><li>Tweeti uz kartes, izmantojot Google maps API, vai kādu citu servisu</li></li></ul><li>http://fmatlas.com<br />CSV file:<br />"56.570, 24.600", My cool tweet from here, by me"56.967, 23.567", I'm finally here, by you<br />
  15. 15. Python<br />Izmantotspiemērosar Web Science saistītosresursos:<br />“Mining the Social Web”<br />“Natural Language Processing with NLTK”<br />O’Reilly Strata conf – “Data Bootcamp”<br />Viegliapgūstamavaloda<br />Tīra, vieglilasāmasintakse<br />Dive Into Python: http://diveintopython.org/toc/index.html<br />
  16. 16. Python<br />Plašsbibliotēkuatbalsts<br />NLTK, SciPy, networkx, WebKit<br />iPython<br />Lietojumiapmācībā un darbā<br />Viena no Google “oficiālajām” valodām<br />MIT nesenpārgājauz Python progrmmēšanasapmācībaibakalaurukursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/<br />
  17. 17. Valodasizvēle<br />Python lietojumamirdažaspriekšrocības:<br />mēsvarampalīdzētdarbāar Python<br />tajāirrakstīti “Mining the Social Web” piemēri<br />Varlietotvairākasvalodas / servisus<br />vienu – datuvākšanai<br />citu – datuapstrādeivaivizualizācijai<br />Katrasgrupasziņā<br />
  18. 18. Grupas? Projekti?<br />
  19. 19. NLP prezentācija<br />
  20. 20. Web Scienceun dabīgā valoda?<br />
  21. 21. Datu veidi<br />Nestrukturēti vai formāli vāji strukturēti dati<br />HTML lapas (prezentācija vs. semantika)<br />teksts, attēli, video u.c.<br />Struktrēti dati<br />RDB tīmekļa serviss<br />RDF/SPARQL end-points<br />DBpedia, Freebase, GeoNames, OpenCyc, ...<br />Linked Data un LOD Community<br />Sociālie tīkli<br />Twitter struktūra<br />Facebook sociālais grafs un Open Graph protokols<br />...<br />
  22. 22. Datu apstrāde<br />Priekšapstrāde<br />Dabīgās valodas apstrāde<br />Datu “bagātināšana” (metadati, linked data)<br />Analīze, vizualizācija, ...<br />
  23. 23. Priekšapstrāde<br />Formāti, rakstzīmju kodējumi, valodas noteikšana<br />Potenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)<br />Tvītu un komentāru normalizācija<br />“Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)<br />Kas ir vārds?<br />Identitāšu anonimizācija (MD5)<br />...<br />
  24. 24. Uzdevums<br />Kad zināma datu kopa jau ir savākta...<br />Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”<br />(Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaits<br />Novērojumi, secinājumi?<br />
  25. 25. Mājasdarbi<br /><ul><li>streaming API
  26. 26. NLP (dabīgāsvalodasapstrāde)</li></li></ul><li>Nākošreiz<br />
  27. 27. <ul><li>Mēsstāstām par vienu no WebScikonferencēm (grupāmvajadzēslīdzīgi)
  28. 28. Kautkadatnāks no Twitter analīzes startup pastāstītkodara.</li></li></ul><li>Atgādinājums par mājas darbiem<br />Deadline: Oct6th 4am<br />

×