2010
10.13

program sederhana ini digunakan untuk mengumpulkan link-link yang ada pada sebuah halaman web, bisa juga di kembangkan menjadi sebuah crawler.. :D

#!/usr/bin/python
#info: program untuk mendapatkan info link-link
#      yang terdapat dalam sebuah halaman web
#
# otoy(http://otoyrood.wordpress.com)
# 0x102010

from urllib import urlopen
import re,sys

peng = '''Penggunaan: python %s http://<alamat web> (jangan lupa http:// atau https://)
Contoh    : python %s http://otoyrood.wordpress.com''' %(sys.argv[0],sys.argv[0])

def main():
 if len(sys.argv) <=1:
 print peng
 sys.exit(1)
 urls=set()

 pat = re.compile('href="([http:|https:].*?)"')

 try:
 urlscn = urlopen(sys.argv[1]).read()
 except IOError:
 print peng
 sys.exit(1)
 print "[+]Gathering links from the web"

 for url in pat.findall(urlscn):
 urls.add(url)

fl = open("haslscan.txt","w")

for url in sorted(urls):
 hsl = '%s' % url,"\n"
 fl.writelines(hsl)

 fl.close()
 print "[+]Gathering links done"

if __name__ == "__main__" :
 main()

in action:

the result:

Related Post

2 comments so far

Add Your Comment
  1. koq eror yak mas…

    # python web-gather.py http://otoyrood.wordpress.com
    File “web-gather.py”, line 15
    if len(sys.argv) <=1:
    ^
    SyntaxError: invalid syntax

  2. C:\Python25>python crawl.py http://www.libertyreserve.com
    File “crawl.py”, line 15
    if len(sys.argv) <=1:
    ^

    error tuh masbro di “<=1″ gak tw ntah salah di tanda titik koma nya ato di tanda titik dua nya…mohon di cek masbro….klo da di perbaiki….segera di post yah