2010
10.13
10.13
program sederhana ini digunakan untuk mengumpulkan link-link yang ada pada sebuah halaman web, bisa juga di kembangkan menjadi sebuah crawler..
#!/usr/bin/python
#info: program untuk mendapatkan info link-link
# yang terdapat dalam sebuah halaman web
#
# otoy(http://otoyrood.wordpress.com)
# 0x102010
from urllib import urlopen
import re,sys
peng = '''Penggunaan: python %s http://<alamat web> (jangan lupa http:// atau https://)
Contoh : python %s http://otoyrood.wordpress.com''' %(sys.argv[0],sys.argv[0])
def main():
if len(sys.argv) <=1:
print peng
sys.exit(1)
urls=set()
pat = re.compile('href="([http:|https:].*?)"')
try:
urlscn = urlopen(sys.argv[1]).read()
except IOError:
print peng
sys.exit(1)
print "[+]Gathering links from the web"
for url in pat.findall(urlscn):
urls.add(url)
fl = open("haslscan.txt","w")
for url in sorted(urls):
hsl = '%s' % url,"\n"
fl.writelines(hsl)
fl.close()
print "[+]Gathering links done"
if __name__ == "__main__" :
main()
the result:



koq eror yak mas…
# python web-gather.py http://otoyrood.wordpress.com
File “web-gather.py”, line 15
if len(sys.argv) <=1:
^
SyntaxError: invalid syntax
C:\Python25>python crawl.py http://www.libertyreserve.com
File “crawl.py”, line 15
if len(sys.argv) <=1:
^
error tuh masbro di “<=1″ gak tw ntah salah di tanda titik koma nya ato di tanda titik dua nya…mohon di cek masbro….klo da di perbaiki….segera di post yah