Data Sets
Additional Large Network Datasets
Stanford Network Analysis Platform Datasets
- Netflix challenge (/home/cs6998/corpora/netflix) - UPDATED
- AOL query logs (/data4/corpora/AOL-user-ct-collection)
- Blogs (http://tangra.si.umich.edu/clair/lexnets/lexnets-R1000.tar.gz) - UPDATED
- Bio papers (/data4/corpora/biocreative)
- AAN (/data4/corpora/aan)
- Email (/data0/corpora/networks/email)
- Generifs (/data4/corpora/generifs)
- Political science corpus (/data4/corpora/polisci)
- VAST (/data0/corpora/VASTCONTEST2006_Data_preprocessed_2007-02-15.zip)
- del.icio.us (/data0/corpora/delicious-data)
- SMS (/data0/corpora/smsCorpus-1.1)
- News data - aquaint (/data4/corpora/aquaint)
- News data - tdt (/data4/corpora/ldc2001t58-tdt3mlv20)
- News data - nantc (/data4/corpora/nantc)
- News data - reuters (/data4/corpora/reuters21578)
- News data - setimes (/data4/corpora/setimes)
- News data - trec (/data4/corpora/trec-small)
- News data - tipster (/data4/corpora/tipster3)
- US congressional data (/data4/corpora/polisci)
- DMOZ (/data4/corpora/dmoz)
- Pubmedcentral (/data4/corpora/pubmedcentral)
- DUC/TAC (/home/cs6998/corpora/duc04) - UPDATED
- Timebank (/data4/corpora/timebank)
- Wikipedia (http://labs.systemone.at/wikipedia3) - UPDATED
- wt2g (/data4/corpora/wt2g)
- wt10g (/data4/corpora/wt10g)
- wt100g (/data4/corpora/wt100g)
- dotgov (/data4/corpora/dotgov)
- RTE (/data4/corpora/rte)
- Paraphrases (/data4/corpora/MSRParaphraseCorpus)
- GENIA (/data4/corpora/genia)
- Hansards (/data4/corpora/hansard.36)
- IMDB (/home/cs6998/corpora/imdb) - UPDATED
- MTA (/data4/corpora/mt_arabic_p1)
- MTC (/data4/corpora/mt_chinese_p2)
- nie (/data4/corpora/nie)
- Poliblog (/data4/corpora/poliblog2004)
- Sentiment (http://www.cs.jhu.edu/~mdredze/datasets/sentiment/) - UPDATED
- xml (/data4/corpora/xmldata)
- Enron (/data4/corpora/enron)
- CIA world factbook (/data4/corpora/ciafactbook)
- DBLP: papers in CS (/data4/corpora/dblp)
- NNDB: information about people (/data4/corpora/nndb)
- webfreq: frequency of words on the web (/data4/corpora/webfreq)
- question answering corpus (/data2/corpora/trec9-qa)
- summarization corpus (/data4/corpora/ISI-SUMM/README)
- Web pages (http://www-2.cs.cmu.edu/~webkb/) - UPDATED
- Europarl multilingual (/data4/corpora/europarl-phrases)
Home