北京大学:网络搜索引擎原理(PPT讲稿)Web Graph & Link Analysis

Nc&IS Web Graph Link Analysis http:/net.pku.edu.cn/wwbia 彭波 pb@netpku.edu.cn 北京大学信息科学技术学院 9/27/2010
Web Graph & Link Analysis http://net.pku.edu.cn/~wbia 彭波 pb@net.pku.edu.cn 北京大学信息科学技术学院 9/27/2010

上一讲主要内容 crawle面临的难题 Scalable, fast, polite ync UDP robust, continuous (slack about DNS prefetch K expiry dates) Text indexing client (UDP) 画晶实现高效率的基本技术 cache Cache Hyperlink Prefetch HttpH normalizer receve a Concurrency Page fetching context'thread disPageKnown? 多进程/多线程 e Craw k+ 异步I/O Persistent work-threadK H isUrlVisited? K+ pool of URLs 〓■有趣的技术 Bloom filter Consistent Hashing
上一讲主要内容 ◼ Crawler面临的难题 ◼ Scalable, fast, polite, robust, continuous ◼ 实现高效率的基本技术 ◼ Cache ◼ Prefetch ◼ Concurrency ◼ 多进程/多线程 ◼ 异步I/O ◼ 有趣的技术 ◼ Bloom filter ◼ Consistent Hashing

I ATT I BBNIGTE MAEW I CERFnet I DIgex I PSI I Sprint I UUnet Unkn owi MAE

Web Graph a玉 an Kodak Canon Worl wide Gateway Apple-Products-QuikTie TOshiba Dell C debe Systemi Incorporated Corpor atien td. Logitech Keyboards AMDE Adva AsUS International lemas Instruments In Veritas softw check c)2003 Touch Graph llC http://www.touchgraph.com/tggooglebroWseR.html
Web Graph http://www.touchgraph.com/TGGoogleBrowser.html

Giant Global Graph My Spac Linkedin Pinkbike PASA biking c content benullman. col google (portfolio sitel news creativity meetup me side proje groups Charlotte google budesigns.com groups employer Design Twitter personal site. intranet Charlotte o● leg: site owner, partner) shopping weekly O●幽 (eg: contributor, organizer Last. fm shallow Icc mont Amazon ebay Pandora (eg maintain a profile)
Giant Global Graph

图论、线性代数若干概念回顾 ■图,有向图,邻接矩阵,节点的度( degree),两节 点间的距离(d),图的直径(r),图的连通性, 有向图的强连通分支,连通分支 nd(uV):从u到v的最短路径的长度 r(G):最大的距离 矩阵(A),矩阵的转置(AT),行列式(|A|) 线性相关性,矩阵的秩,特征值,特征向量,特征 子空间 Ax=x, (I-A)x=0
图论、线性代数若干概念回顾 ◼ 图,有向图,邻接矩阵,节点的度(degree),两节 点间的距离(d),图的直径(r),图的连通性, 有向图的强连通分支,连通分支 ◼ d(u,v):从u到v的最短路径的长度 ◼ r(G):最大的距离 ◼ 矩阵(A),矩阵的转置(AT),行列式(|A|), 线性相关性,矩阵的秩,特征值,特征向量,特征 子空间 Ax = x, (I − A)x = 0

本次课大纲 nWeb有多大? Web的连通性如何? Web上节点的分布如何? Web上节点距离有多远? Web上节点重要度如何度量?
本次课大纲 ◼ Web 有多大? ◼ Web的连通性如何? ◼ Web上节点的分布如何? ◼ Web上节点距离有多远? ◼ Web上节点重要度如何度量?

Nc&IS Web有多大?
Web 有多大?

Web的大小一网页总数 ■图大小不可知,也无法定义 估计Web图节点数的下界 搜索引擎索引的网页数( crawled pages) 例如 CNNIC中国互联网网页调查报告 ■能更逼近真实值吗? 亿个 84.7 □网页数 一网页数增长率 240% 200.1% 180% 178.0% 44.7 89.49 120% 30 260 98.5% 60% 8.7 1.6 2002.122003.122004.122005.122006.122007.12
Web的大小—网页总数 ◼ 图大小不可知,也无法定义 ◼ 估计Web图节点数的下界 ◼ 搜索引擎索引的网页数(crawled pages) ◼ 例如CNNIC中国互联网网页调查报告 ◼ 能更逼近真实值吗?

Capture-Recapture Model Unknown number of fish in a lake Catch a sample and mark them m++, Let them loose Recapture a sample and look for marks Estimate population size n1 number in first sample 15 n2 number in second sample 10 n12 number in both samples 5 N= total population size assume that n1/N= n12/n2 therefore 15/N 5/10 N=(10X15)/5=30
Capture-Recapture Model ◼ Unknown number of fish in a lake ◼ Catch a sample and mark them ◼ Let them loose ◼ Recapture a sample and look for marks ◼ Estimate population size ◼ n1 = number in first sample 15 n2 = number in second sample 10 n12 = number in both samples 5 N = total population size assume that n1/N = n12/n2 therefore 15/N = 5/10 N = (10 x 15) / 5 = 30
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《数据结构 Data Structure》课程教学资源(PPT课件讲稿)第二章 线性表.ppt
- 大庆职业学院:《计算机网络技术基础》课程电子教案(PPT教学课件)第3章 网络体系结构与协议.ppt
- 《微型计算机原理及应用》课程教学资源(PPT课件讲稿)第6章 输入输出与中断.ppt
- 信息化技术中心:网络安全意识培训(PPT讲稿).pptx
- 徐州师范大学:《电子商务 Electronic Business》课程教学资源(PPT课件讲稿)电子商务安全实验、数字证书应用.ppt
- Generic Programming(PPT课件讲稿)Templates and Overloading.ppt
- 西安电子科技大学:《操作系统 Operating Systems》课程教学资源(PPT课件讲稿)Chapter 01 Introduction(主讲:高海昌).ppt
- 四川大学:《数据结构》课程教学资源(PPT课件讲稿)第七章 查找 Search.ppt
- 西安电子科技大学:《现代操作系统》课程PPT教学课件(讲稿)作业管理 Job Management.ppt
- 《多媒体技术》课程教学资源(PPT课件讲稿).ppt
- 南京航空航天大学:《数据结构》课程教学资源(PPT课件讲稿)第二章 线性表.ppt
- 《计算机文化基础》课程教学课件(PPT课件讲稿)第一章 信息技术与计算机文化.ppt
- 江苏大学:《面向对象建模技术》课程教学资源(PPT课件讲稿)第1章 UML与面向对象(主讲:林琳).ppt
- 《数据结构》课程教学资源(PPT课件讲稿)第五章 树及二叉树.ppt
- 《网站设计与建设》课程PPT教学课件(Website design and developments)第二部分 网站规划 第9章 软件平台规划.ppt
- 《数据库原理与应用》课程教学资源(PPT课件讲稿)第2章 关系数据库数学模型.ppt
- 《计算机网络》课程电子教案(PPT教学课件讲稿,共十章).ppt
- 西华大学:《电子商务概论》课程教学资源(PPT课件讲稿)第3章 电子商务的技术基础.ppt
- 中国科学技术大学:《高级操作系统 Advanced Operating System》课程教学资源(PPT课件讲稿)分布式系统的同步(3.3-3.5).ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第1章 微机系统概论(2013).ppt
- 西安电子科技大学:《现代密码学》课程教学资源(PPT课件讲稿)第七章 密码协议.pptx
- 上海交通大学:Network Coding for Wireless Networks(PPT讲稿).pptx
- 并行算法 Parallel Algorithms(PPT讲稿)现状与展望 status and prospects.ppt
- 《高级程序语言》课程教学资源(PPT课件讲稿)第09章 平台无关语言.ppt
- Phase Change Memory Aware Data Management and Application.pptx
- 合肥工业大学:《数据库系统概论》课程教学资源(PPT课件)第四章 并发控制.ppt
- 中国科学技术大学:《Linux操作系统分析》课程教学资源(PPT课件讲稿)Linux的进程(1/3).ppt
- 《计算机网络》课程教学大纲 Computer Networks.pdf
- 南京大学:模型检测(PPT课件讲稿)Model Checking.pptx
- 电子科技大学:《计算机操作系统》课程教学资源(PPT课件讲稿)第四章 设备管理 Device Management and Disk Scheduling.ppt
- 湖南生物机电职业技术学院:《电子商务概论》课程教学资源(PPT课件)第八章 电子商务安全.ppt
- 《操作系统》课程PPT教学课件(英文)内存管理 Memory Management.ppt
- 上海交通大学:IT项目管理(PPT讲稿)讲座6 软件项目工作量估算.ppt
- 四川大学:《数据库技术》课程教学资源(PPT课件讲稿)第9章 数据库系统开发工具VB.ppt
- 合肥学院:《数据库原理与应用》课程教学资源(PPT课件)第4章 数据库的创建与管理.ppt
- 中国科学技术大学:《计算机体系结构》课程教学资源(PPT课件讲稿)第3章 流水线技术.ppt
- 系统软件与软件安全(PPT讲稿)构造安全、高效的系统软件.pptx
- 计算机问题求解(PPT讲稿)图的计算机表示以及遍历.pptx
- 《The C++ Programming Language》课程教学资源(PPT课件讲稿)Lecture 03 Standard Template Library & Generic Programming.ppt
- Scanning Electron Microscopy(SEM).ppt