Matrix vermenigvuldiging op parallelle computers met

advertisement
Matrix vermenigvuldiging op parallelle computers met
gebruikmaking van BSP
Geert Mulders
G.C.W.M.Mulders@phys.uu.nl
Joost van Bruggen
J.vanBruggen@phys.uu.nl
13 januari 2005
Inhoudsopgave
1 Inleiding
2
2 2-Dimensionaal Algoritme
2.1 inleiding . . . . . . . . . . . . . . .
2.2 datadistributie . . . . . . . . . . .
2.3 communicatie van submatrices . .
2.4 vermenigvuldigen van submatrices
2.5 het algoritme . . . . . . . . . . . .
2.6 implementatie . . . . . . . . . . . .
2.7 kosten analyse . . . . . . . . . . .
2.7.1 communicatie . . . . . . . .
2.7.2 berekeningen . . . . . . . .
2.7.3 totale kosten . . . . . . . .
2.7.4 geheugen . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
3
4
4
4
5
5
6
6
6
6
3 3-Dimensionaal Algoritme
3.1 inleiding . . . . . . . . . . . . . . . . .
3.2 initiële datadistributie . . . . . . . . .
3.3 stap 1: datadistributie . . . . . . . . .
3.4 stap 2: submatrices vermenigvuldigen
3.5 stap 3: optellen van producten . . . .
3.6 in het algemeen . . . . . . . . . . . . .
3.7 algoritme . . . . . . . . . . . . . . . .
3.8 kosten analyse . . . . . . . . . . . . .
3.8.1 communicatie . . . . . . . . . .
3.8.2 berekenen . . . . . . . . . . . .
3.8.3 totale kosten . . . . . . . . . .
3.8.4 geheugen . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
7
7
8
8
9
9
9
9
10
10
4 Test resultaten
4.1 inleiding . . . . . . . .
4.2 het 2d programma . .
4.3 het 3d programma . .
4.4 sequentieel programma
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
11
11
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Conclusie
13
A Source code 2d programma
14
B Source code 3d programma
18
C Source code sequentiëel programma
21
1
Hoofdstuk 1
Inleiding
In dit verslag wordt een tweetal algoritmen besproken om 2 vierkante n × n matrices, aangeduid
met A en B, met elkaar te vermenigvuldigen. De resultaatmatrix noemen we C = AB. De
programma’s zijn geschreven in de programmeertaal C met gebruikmaking van BSP [1] en getest
op de supercomputer Teras van het Sara instituut. Dit project is een onderdeel van de cursus
Parallelle Algoritmen van de faculteit Wiskunde en Informatica aan de Universiteit Utrecht, die
gegeven wordt door de heer Bisseling [2].
De code die naar aanleiding van dit verslag is geschreven is te vinden op onze homepage [3] en
is als appendix opgenomen in dit verslag.
2
Hoofdstuk 2
2-Dimensionaal Algoritme
2.1
inleiding
In dit hoofdstuk wordt een zogenaamd 2-dimensionaal algoritme voor het vermenigvuldigen van
vierkante matrices op een parallelle computer besproken. De term 2-dimensionaal slaat op de
verdeling van de inputmatrices over de processoren en op de manier waarop de processoren
genummerd zijn.
2.2
datadistributie
Voor de datadistributie gebruiken we een blokdistributie; dat wil zeggen dat de n × n inputmatrices A en B in blokken ter grootte van bs = n/q over p = q 2 processoren worden verdeeld. We
nemen hierbij aan dat p een kwadraat is van een integer en dat n deelbaar is door q zodat de
blocksize bs op elke processor dezelfde is. Elke processor, die met een 2-dimensionaal processornummer P (s, t) wordt aangeduid, heeft dus 2 submatrices ter grootte bs × bs van respectievelijk
inputmatrix A en B in zijn geheugen. We duiden deze submatrices op processor P (s, t) aan met
Ast en Bst . Zie figuur 2.1 voor een grafische weergave van deze manier van distribueren. Voor
deze distributie is communicatie vereist omdat alleen processor P (0, 0) IO kan uitvoeren.
size
P(0,0)
bs
P(2,1)
Figuur 2.1: Blokdistributie van een size×size inputmatrix over 9 processoren. Op elke processor
P (s, t) wordt de grootte van de submatrices gegeven door bs × bs
In de opdracht mag er van uitgegaan worden dat elke processor de 2 bijbehorende submatrices
uit respectievelijk A en B heeft. In het door ons geschreven programma kan gebruik gemaakt
worden van tekst files (a.txt en b.txt) met daarin de 2 inputmatrices, die door processor
P (0, 0) worden ingelezen en vervolgens verdeeld over de andere processoren. Omdat dit nogal
wat tijd vergt, hebben we een optie toegevoegd die de submatrices op de verschillende processoren
3
volgens een simpel algoritme met data vult, zonder dat daarbij communicatie gebruikt wordt.
Er dient hierbij opgemerkt te worden dat de tekstfiles a.txt en b.txt wel aanwezig moeten zijn
om het programma te laten werken. Het programma zal als grootte van de met het algoritme
gegenereerde matrices het eerste getal uit de tekstfiles nemen.
2.3
communicatie van submatrices
Na de initiële datadistributie worden op elke processor die submatrices met elkaar vermenigvuldigd zodat op processor P (s, t) precies het goede blok van de resultaatmatrix, dat wil zeggen
Cst , berekend wordt. Hiervoor moet natuurlijk weer gecommuniceerd worden, omdat processor
P (s, t) de blokken van alle processoren die in dezelfde rij als P (s, t) zitten (dit geven we voortaan
aan met P (s, ∗)), nodig heeft, alsook de blokken van alle processoren in dezelfde kolom : P (∗, t).
2.4
vermenigvuldigen van submatrices
Heeft processor P (s, t) eenmaal 2 blokken (een blok van A en het bijbehorende blok van B),
dan kunnen die met elkaar vermenigvuldigd worden. Dan moeten de volgende 2 blokken van
de juiste processoren gehaald worden en hun product bij het vorige opgeteld. Deze stap wordt
zolang herhaald totdat alle blokken uit rij P (s, ∗) vermenigvuldigd zijn met de bijbehorende
blokken uit kolom P (∗, t).
De vermenigvuldiging van 2 submatrices [a] en [b] maakt gebruik van het volgende:
[c]ij =
bs−1
X
[a]ik [b]kj ,
k=0
wat gemakkelijk met behulp van 3 for loops geı̈mplementeerd kan worden.
2.5
het algoritme
Samenvattend komen we tot Algoritme 1, dat op elke processor hetzelfde uiterlijk heeft, maar
op andere data werkt (het zogenaamde Single Program Multiple Data principe).
Algoritme 1 2D Algoritme
1: p ← bsp_nprocs() {het aantal gebruikte processoren}
√
2: q ← p
3: s ← bsp_pid() {elke processor heeft een uniek nummer (0,1,..,p-1)}
4: a ← s div q {van 1D naar 2D processornummering (rij)}
5: b ← s mod q {van 1D naar 2D processornummering (kolom)}
6: initialiseer outputsubmatrix [c] met 0-en
7: for t = 0 to q − 1 do
8:
[a] ← [a](t+a∗q) {get submatrix [a] van andere processor (zelfde rij) }
9:
[b] ← [b](t∗q+b) {get submatrix [b] van andere processor (zelfde kolom)}
10:
[c] ← [c]oud + [a] · [b] {vermenigvuldig de submatrices en tel op}
11: end for
We zien hier duidelijk het communiceren van de submatrices optreden. Hierbij wordt expliciet
gebruik gemaakt van de 2-dimensionale processornummering, terwijl binnen de BSP bibliotheek
processoren met 1 getal worden aangeduid (een integer s in het bereik 0 ≤ s < p). De submatrices
[a] worden van elke processor in dezelfde rij als de uitvoerende processor gehaald, terwijl de
bijbehorende submatrices [b] van de processoren in dezelfde kolom worden gehaald. Daarna zien
we de vermenigvuldiging van de submatrices plaatsvinden. De · stelt dan ook het matrixproduct
voor en de gebruikte methode is de in sectie 2.4 genoemde.
4
2.6
implementatie
Nu gaan we in op de implementatie van het hiervoor beschreven algoritme.
Voordat 2 submatrices op een bepaalde processor met elkaar vermenigvuldigd kunnen worden,
moeten die lokaal aanwezig zijn. Hiervoor maken we gebruik van get operaties. Na de get
operaties wordt een synchronisatie gedaan, zodat het zeker is dat de benodigde data aanwezig
zijn. Zie code fragment 2.1 voor de details. De functies die beginnen met bsp zijn BSP specifieke
functies [2].
Om de communicatie gebalanceerd te houden, beginnen we op elke processor met het get-en van
de lokale submatrix [a] en de bijbehorende (in het algemeen niet lokale) submatrix [b]. Daarna
verkrijgen we door middel van een get-operatie de submatrix [a] van de processor die zich naast
de processor bevindt waarop het programma draait en de submatrix [b] van de processor die zich
onder de vorige bevindt. Zo wordt er doorgegaan totdat alle processoren uit de rij (en dus ook
alle processoren uit bijbehorende kolom) aan bod zijn geweest.
Listing 2.1: submatrices communiceren en vermenigvuldigen
int
int
int
int
s
p
q
bs
=
=
=
=
bsp pid ( ) ;
bsp nprocs ( ) ;
s q r t ( p + 0 . 5 ) ; // + 0 . 5 : a f r o n d i n g g a a t dan z e k e r goed
n/q ;
double ∗ ∗ matrixA
= m a t a l l o c d ( bs , bs ) ;
double ∗ pA
= matrixA [ 0 ] ;
double ∗ ∗ matrixAtemp = m a t a l l o c d ( bs , bs ) ;
double ∗ pAtemp
= matrixAtemp [ 0 ] ;
b s p p u s h r e g (pA
, bs ∗ bs ∗SZDBL ) ;
b s p p u s h r e g ( pAtemp , bs ∗ bs ∗SZDBL ) ;
// idem voor matrixB , pB , matrixBtemp , pBt
for ( t =0; t<q ; t++)
{
// 1D naar 2D processornummering
int a = s / q ;
// r i j nummer vd p r o c e s s o r
int b = s % q ;
// kolom nummer vd p r o c e s s o r
int c = ( b+t ) % q ; // b e s p a a r t r e k e n w e r k
// g e b a l a n c e e r d e communicatie van s u b m a t r i c e s
b s p g e t ( a∗q +
c , pA , 0 , pAt , bs ∗ bs ∗SZDBL ) ;
b s p g e t ( b + c ∗q , pB , 0 , pBt , bs ∗ bs ∗SZDBL ) ;
bsp sync ( ) ;
// s u b m a t r i c e s v e r m e n i g v u l d i g e n
for ( int i =0; i <bs ; i ++)
for ( int j =0; j <bs ; j ++)
for ( int k =0; k<bs ; k++)
matrixC [ i ] [ j ] += matrixAtemp [ i ] [ k ] ∗ matrixBtemp [ k ] [ j ] ;
}
bsp sync ( ) ;
2.7
kosten analyse
Om de kosten van het algoritme te bepalen, moeten we ons realiseren dat die uit 3 belangrijke
ingrediënten bestaan: communicatie, berekeningen en synchronisatie. We zullen gebruik maken
5
van de door Bisseling [2] voorgestelde kostenfuncties. De kosten om een h-relatie te communiceren, bedragen Tcomm (h) = hg + l waarbij g de kosten zijn om 1 datawoord te communiceren (in
flops) en l een parameter is die alle vaste kosten (in flops) in zich verzamelt. De kosten van een
rekenstap worden gegeven door Tcomp (w) = w + l, waarbij l dezelfde betekenis en waarde heeft
als bij de communicatie kosten en w het maximaal aantal flops in de computatie stap is (op 1
processor). Hiermee kan de kostenfunctie van elk BSP algoritme geschreven worden als:
T = a + bg + cl.
(2.1)
Een BSP computer kunnen we karakteriseren door 4 parameters: p, r, g, en l. Hierbij staat p
voor het aantal processoren en r voor de snelheid van 1 processor (in flop/s). Nu kunnen we een
schatting maken van de benodigde tijd om het programma uit te voeren (mits we de waarden
van de parameters van de gebruikte machine kennen, bijv. door benchmarking); deze is namelijk
t = T /r.
Verder speelt de gebruikte hoeveelheid geheugen een rol; deze zullen we ook analyseren.
2.7.1
communicatie
Elke processor vraagt q keer 2 submatrices van steeds een andere processor. Die submatrices
hebben een grootte van n/q × n/q = n2 /p. Aangezien elke processor op hetzelfde moment zulke
datablokken opvraagt en als eerste altijd de lokale submatrix a en bijbehorende submatrix b
(die in het algemeen niet lokaal is) ontvangt, verzendt elke processor steeds evenveel als hij
ontvangt. We kunnen dus spreken van een volle h-relatie, met h = 2n2 /p in het geval dat er
geen lokale submatrix (op alle processoren!) bij betrokken is. De allereerste communicatiestap
is echter zeker goedkoper, omdat de submatrix [a] niet gecommuniceerd hoeft te worden; dan
geldt h = n2 /p. De totale communicatie kosten komen hiermee op:
2
n2
n
n2
n2
+ l) + (g ×
+ l) = 2 √ −
Tcomm = (q − 1) × (g × 2
g + ql.
p
p
p
p
2.7.2
berekeningen
Voor het product van 2 submatrices worden 2(bs)3 berekeningen gedaan, waarbij de (bs)3 komt
van de 3 gebruikte for loops en de factor 2 omdat er steeds én een optelling én een vermenigvuldiging wordt uitgevoerd. In totaal worden er op elke processor q keer 2 submatrices
vermenigvuldigd, zodat we op een totaal uitkomen van:
Tcomp = q × (2(bs)3 + l) = 2
2.7.3
n3
+ ql.
p
totale kosten
De totale kosten worden met behulp van de eerder voorgestelde kostenfunctie (2.1) gegeven door:
2
n3
n
n2
T = Tcomm + Tcomp = 2
g + 2ql.
+ 2√ −
p
p
p
2.7.4
geheugen
Op elke processor worden 5 matrices gedeclareerd ter grootte bs × bs. Bij elkaar hebben we dus
5 × n × n × SZDBL geheugen nodig. Bovendien worden op processor P (0, 0) de 2 inputmatrices
A en B ingelezen, waarvoor 2 × n × n × SZDBL geheugen nodig is. De parameter SZDBL =
sizeof(double) geeft de grootte van een double in bytes.
Er wordt gebruik gemaakt van tijdelijke matrices (zie code fragment 2.1) omdat de lokale matrices
in het algemeen nog nodig zijn op andere processoren en dus niet overschreven dienen te worden.
6
Hoofdstuk 3
3-Dimensionaal Algoritme
3.1
inleiding
In dit hoofdstuk wordt de 3-dimensionale variant van het hiervoor besproken algoritme onderzocht. De term 3-dimensionaal slaat weer op de verdeling van de inputmatrices over de
√
processoren en op de manier waarop de processoren genummerd zijn. In dit geval geldt q = 3 p.
3.2
initiële datadistributie
Zoals aangegeven in de opdracht, mocht er van uitgegaan worden dat de matrices over de processoren zijn verdeeld. We hebben er dan ook voor gekozen om het programma volgens een simpel
algoritme getallen in de submatrices op de verschillende processoren te laten genereren en het
daadwerkelijke verdelen achterwegen te laten.
De submatrix Asu van inputmatrix A is bij aanvang van het algoritme gedistribueerd over de
rij van processoren met nummers P (s, ∗, u), terwijl de submatrix But van inputmatrix B gedistribueerd is over de kolom van processoren met nummers P (∗, t, u). Dit betekent dus dat beide
inputmatrices in q 2 submatrices ter grootte n/q ×n/q zijn verdeeld. Elke submatrix is bovendien
over zijn bijbehorende kolom of rij gedistribueerd, wat inhoudt dat elke processor in die rij of
die kolom een rij of kolom krijgt uit de submatrix. Zie figuur 3.1 voor een expliciet voorbeeld.
√
De grootte van de vierkante blokken is bs = n/q. Hierbij heeft q de waarde 3 p. We nemen aan
dat p de derde macht is van een integer en dat n een veelvoud is van q, zodat de blocksize op
elke processor dezelfde waarde heeft.
3.3
stap 1: datadistributie
In de eerste stap van het algoritme wordt door elke processor de data die lokaal aanwezig zijn,
verzonden naar die processoren die de data later in het algoritme nodig hebben. Voor data uit
inputmatrix A zijn dit de processoren in dezelfde rij als de versturende processor en voor de data
uit B de processoren in dezelfde kolom (zie figuur 3.2). Hierbij moet er op gelet worden dat de
data in de goede volgorde in de lokale submatrices terecht komen.
3.4
stap 2: submatrices vermenigvuldigen
Na de datadistributie worden op elke processor de 2 aanwezige submatrices met elkaar vermenigvuldigd (op de manier zoals beschreven in sectie 2.4). Hiervoor hoeft dus geen communicatie
plaats te vinden.
7
size
a00
a01
a02
a03
a10
a11
a12
a13
bs
z
p=8
q=2
y
a20
[a]10
a21
a22
a23
a30
a31
a32
a33
b00
b01
b02
b03
b10
b11
b12
b13
b20
b21
b22
b23
x
b00 b01
P001
P011
P101
P111
[b]00
b30
b31
b32
b33
P010
P000
[b]00
b10 b11
a20
a30
P100
a21
a31
z=1
P110
z=0
[a]10
Figuur 3.1: De initiële verdeling van twee submatrices van de twee 4 × 4 inputmatrices A en B
over 8 processoren
Figuur 3.2: De datadistributie in een processorkolom
3.5
stap 3: optellen van producten
De derde en laatste stap is het optellen van de matrixproducten. We zorgen er voor dat de
resultaatmatrix C op een zelfde manier als de inputmatrix B verdeeld is over de processoren.
We doen dit om er voor te zorgen dat er zo min mogelijk gecommuniceerd hoeft te worden.
Zo komt in het voorbeeld van figuur 3.1 de bovenste rij van de som van de 2 submatrices die
het resultaat zijn van de lokale vermenigvuldiging op processoren P (1, 0, 0) en P (1, 0, 1) terecht
op P (1, 0, 0) terwijl de onderste rij op P (1, 0, 1) terecht komt. Op deze manier hoeven niet hele
submatrices gecommuniceerd te worden; het volstaat om voor de processor P (x, y, i) in het i-de
z-vlak de i-de rij van elk van de submatrices op de processoren met dezelfde x en y op te halen.
3.6
in het algemeen
In het algemeen is het zo dat er niet 1 rij of 1 kolom gecommuniceerd wordt, maar dat er sprake
is van een blok van aanliggende rijen of kolommen. Er zullen in het algemeen namelijk meer
kolommen (of rijen) in een submatrix zijn dan er processoren zijn. Het komt er op neer dat
bs/q > 1. Deze verzamelingen rijen of kolommen noemen we een blok ; een blok heeft een breedte
van bs/q en elke submatrix wordt in q van die blokken verdeeld.
8
3.7
algoritme
Samenvattend komen we tot Algoritme 2, dat op elke processor weer hetzelfde uiterlijk heeft,
maar op andere data werkt (het zogenaamde Single Program Multiple Data principe).
Algoritme 2 3D Algoritme
1: p ← bsp_nprocs() {het aantal gebruikte processoren}
√
2: q ← 3 p
3: s ← bsp_pid() {elke processor heeft een uniek nummer (0,1,..,p-1)}
4: x ← s mod (q ∗ q) mod q {van 1D naar 3D processornummering}
5: y ← s mod (q ∗ q) div q
6: z ← s div (q ∗ q)
{STAP 1: datadistributie, zie figuur 3.2}
7: op processor P (i, j, k)
8: for all x 6= i,y 6= j do
9:
get rij x van [a] op processor P (x, j, k) en stop die in rij x van de lokale [a]
10:
get kolom y van [b] op processor P (i, y, k) en stop die in kolom y van de lokale [b]
11: end for
{STAP 2: submatrices vermenigvuldigen}
12: [c] ← [a] · [b]
{STAP 3: optellen van resultaten}
13: op processor P (i, j, k)
14: for all z 6= k do
15:
get rij i van [c] op processor P (i, j, z) en en tel die op bij rij i van de lokale [c]
16: end for
3.8
kosten analyse
We maken weer gebruik van de theoretische relaties die in het BSP model gelden en die al in
sectie 2.7 zijn besproken.
3.8.1
communicatie
In de stappen 1 en 3 van het algoritme vindt communicatie plaats.
In stap 1 zendt elke processor een kolom van de lokale submatrix [a] en een rij van de lokale
submatrix [b] naar de q 1 processoren in dezelfde processor-rij respectievelijk dezelfde processorkolom. Tegelijkertijd worden ook zulke kolommen en rijen ontvangen.
De grootte van zo’n kolom (of rij) is 1/q × (bs)2 = n2 /p. Aangezien er naar q processoren wordt
gezonden, en elke processor gelijktijdig met de andere bezig is, hebben we een h-relatie met
h = 2n2 /p2/3 .
In stap 3 worden de resultaten weer in de bekende verdeling gebracht. Hiervoor geldt h =
n2 /p2/3 , omdat er nu slechts steeds 1 rij hoeft te worden gecommuniceerd (uit de lokale resultaatsubmatrix).
De totale communicatie kosten komen hiermee op:
Tcomm = 3g
3.8.2
n2
+ ql.
p2/3
berekenen
Berekenen vindt plaats in stappen 2 en 3.
1 Eigenlijk wordt er naar q − 1 processoren gezonden. Door gebruik te maken van q zijn de uiteindelijke
uitdrukkingen van een mooiere vorm.
9
In stap 2 worden de submatrices vermenigvuldigd. Dit levert de kosten Tcomp,2 = 2 × (bs)3 =
2n3 /p op.
In stap 3 worden q keer 2 rijen ter grootte n2 /p opgeteld, wat de volgende kosten met zich
meebrengt: Tcomp,3 = q × n2 /p = n2 /p2/3 .
De totale reken kosten worden gegeven door:
Tcomp =
3.8.3
n2
2n3
+ 2/3 + ql.
p
p
totale kosten
De totale kosten van het 3-dimensionale algoritme komen met gebruikmaking van de eerder
voorgestelde kostenfunctie (2.1) en het voorgaande op:
T = Tcomp + Tcomm = 2
3.8.4
n3
n2
n2
+ 2/3 + 3 2/3 g + 2p1/3 l.
p
p
p
geheugen
Op elke processor worden 4 submatrices ter grootte bs × bs gedeclareerd. We vinden een van het
aantal processoren afhankelijk geheugengebruik van 4 p3/2 × n2 × SZDBL.
10
Hoofdstuk 4
Test resultaten
4.1
inleiding
In dit hoofdstuk wordt besproken hoe de twee verschillende implementatie’s presteren. Hiervoor
zijn de 2 geschreven programma’s gedraaid op de parallelle computer Teras van SARA Rekenen Netwerkdiensten [4] met matrices van verschillende grootte als input en met gebruikmaking
van verschillende aantallen processoren.
4.2
het 2d programma
Om te kijken hoe het programma schaalt met het aantal gebruikte processoren, hebben we een
aantal runs uitgevoerd. Zie tabel 4.1 voor de resultaten.
size \ p
100
300
360
600
720
1080
1440
1800
1
0.11
2.84
24.2
38.5
-
4
0.04
0.87
1.33
6.03
9.84
33.5
89.4
195.6
9
0.40
0.70
2.90
4.62
17.6
40.8
80.7
Tabel 4.1: Resultaten verkregen met het 2d programma; de aangegeven tijden zijn in seconden.
Bij gebruik van dit programma is het voordeel van het parallelliseren duidelijk zichtbaar.
4.3
het 3d programma
Ook voor het programma dat gebruik maakt van het 3-dimensionale algoritme, hebben we gekeken hoe het schaalt met het aantal gebruikte processoren. Zie tabel 4.2 voor de resultaten.
4.4
sequentieel programma
Ter vergelijking is nog een sequentiële implementatie gemaakt van het algoritme om matrices te
vermenigvuldigen. Zoals verwacht is dit programma iets sneller dan de parallelle versies als die
gebruik maken van slechts 1 processor. Zie tabel 4.3
Zie de appendix voor de code van het sequentiële programma.
11
size \ p
100
200
300
400
500
600
700
800
900
1000
1500
2000
1
0.10
0.74
2.31
6.12
11.1
23.5
38.3
61.6
93.9
134.0
-
8
0.22
0.85
2.00
3.63
5.66
9.06
12.5
17.8
21.7
29.4
89.6
241.8
Tabel 4.2: Resultaten verkregen met het 3d programma; de aangegeven tijden zijn in seconden.
size \ p
100
300
500
700
900
1000
1
0.08
2.19
10.8
36.4
88.1
131.1
Tabel 4.3: Resultaten verkregen met het sequentiële programma; de aangegeven tijden zijn in
seconden.
12
Hoofdstuk 5
Conclusie
Bij gebruik van meerdere processoren zijn de geschreven programma’s sneller dan een standaard
programma dat geen gebruik gemaakt van parallellisme. Het programma dat gebruik maakt
van het 3-dimensionale algoritme is bij de gedane test-runs niet sneller dan het programma dat
gebruik maakt van het 2-dimensionale algoritme. Het is echter wel zo dat er een trend zichtbaar is
die laat zien dat het 3-dimensionale algoritme bij gebruik van grote matrices en veel processoren,
zoals ook uit het vergelijken van de theoretische kostenfunctie’s te zien is, voordeliger zal zijn.
13
Bijlage A
Source code 2d programma
/************************************************************************************
* parallel program for computing the product of two square N x N - matrices A and B *
* it can make use of p=1,4,9,16,... processors (with a maximum of N x N processors) *
* and the restriction N mod sqrt(p) = 0 has to be satisfied
*
* the two input matrices are read from the files a.txt and b.txt
*
* in these files, the first number indicates the value of N
*
*************************************************************************************/
#include "bspedupack.h"
int P;
double** A;
double** B;
int size;
/*
/*
/*
/*
number of processors requested */
input matrix A */
input matrix B */
size (in one dimension) of input matrices */
/******************
* SPMD FUNCTION *
*******************/
void matrixm()
{
int p;
/* number of processors being used */
int s;
/* current processor number */
int q;
/* sqrt of p; number of blocks on a row (or in a column) */
int bs;
/* blocksize: size of submatrices (which are bs x bs) */
int i, j, k, t; /* counters */
int a, b;
/* matrices */
double** matrixA;
double** matrixB;
double** matrixC;
double** matrixAtemp;
double** matrixBtemp;
/* pointers to these matrices used for get operations */
double* pA;
double* pB;
double* pAt;
double* pBt;
/* timers */
double time0, time1;
/* file pointer */
//
FILE * file;
/* BEGIN PARALLEL PART */
bsp_begin(P);
p = bsp_nprocs();
s = bsp_pid();
q = (int) (sqrt(p)+0.5);
/* CHECKS */
if(q*q != p)
bsp_abort("Error: wrong value of q!");
if (size*size < p) /* blocksize will be smaller than 1 */
{
if (s==0)
printf("Error: too many processors requested. Blocksize will be smaller than 1.\n");
exit(1);
}
14
if (size%q == 0)
bs = size/q;
else
/* blocksize will differ among processors */
{
if (s == 0)
printf("Error: matrix dimensions incompatible with number of processors.\n");
exit(1);
}
/* DATA DISTRIBUTION */
/* allocate matrices */
matrixA
= matallocd(bs, bs);
matrixB
= matallocd(bs, bs);
matrixC
= matallocd(bs, bs);
matrixAtemp = matallocd(bs, bs);
matrixBtemp = matallocd(bs, bs);
/* set pointers */
pA = matrixA[0];
pB = matrixB[0];
pAt = matrixAtemp[0];
pBt = matrixBtemp[0];
/* register pointers */
bsp_push_reg(pA, bs*bs*SZDBL);
bsp_push_reg(pB, bs*bs*SZDBL);
bsp_push_reg(pAt, bs*bs*SZDBL);
bsp_push_reg(pBt, bs*bs*SZDBL);
bsp_sync();
time0 = bsp_time();
//
//
//
//
//
//
//
/* DISTRIBUTE the data */
if (s == 0)
for (i = 0; i < size; i++)
for (j = 0; j < size; j++)
{
bsp_put( ((i/bs)*q + j/bs)%p, &A[i][j], pA, (i*bs + j%bs) % (bs*bs) * SZDBL, SZDBL);
bsp_put( ((i/bs)*q + j/bs)%p, &B[i][j], pB, (i*bs + j%bs) % (bs*bs) * SZDBL, SZDBL);
}
/* submatrix generation for testing purposes (faster) */
for (i = 0; i < bs; i++)
for (j = 0; j < bs; j++)
{
a = i+j;
matrixA[i][j] = a;
matrixB[i][j] = a;
}
bsp_sync();
time1 = bsp_time();
//
//
//
//
//
if (s == 0)
{
printf("Time required for data distribution: %.12lf seconds.\n", time1 - time0);
fflush(stdout);
}
/* COMPUTATION */
/************************************************************************************************
* get blocks from other processors and put those blocks locally in matrixAtemp and matrixBtemp *
* the A-blocks come from all processors in the same processor row (2D processor numbering)
*
* the B-blocks come from all processors in the same processor column (2D processor numbering) *
************************************************************************************************/
/* initialize output matrix */
for (i = 0; i < bs; i++)
for (j = 0; j < bs; j++)
matrixC[i][j] = 0;
/* convert 1D numbering to 2D */
a = s / q;
b = s % q;
/* communicate and compute */
for(t = 0; t < q; t++)
{
/* get blocks (initialize the transfer) */
bsp_get( t + a*q, pA, 0, pAt, bs*bs*SZDBL);
bsp_get( t*q + b, pB, 0, pBt, bs*bs*SZDBL);
bsp_sync();
/* actually GET the blocks (do the transfer) */
/* calculate product of two blocks */
15
for (i = 0; i < bs; i++)
for (j = 0; j < bs; j++)
for (k = 0; k < bs; k++)
matrixC[i][j] += matrixAtemp[i][k] * matrixBtemp[k][j];
}
bsp_sync();
time0 = bsp_time();
if (s == 0)
{
printf("Time required for computation: %lf seconds.\n", time0-time1);
fflush(stdout);
}
//
//
//
/* RESULT MATRIX */
for (i = 0; i < bs; i++)
for (j = 0; j < bs; j++)
printf("%lf\t", matrixC[i][j]);
/* DEREGISTRATION and DEALLOCATION */
bsp_pop_reg(pA);
bsp_pop_reg(pB);
bsp_pop_reg(pAt);
bsp_pop_reg(pBt);
matfreed(matrixA);
matfreed(matrixB);
matfreed(matrixC);
matfreed(matrixAtemp);
matfreed(matrixBtemp);
bsp_end();
}
/*************************************************************************************************************************
*
reads a matrix from a file, stores the entries in memory and returns a pointer to that memory
*
*
the first number in the file must be an int, representing the size of one dimension of the square matrix
*
*
the following numbers can be doubles and are the entries of the matrix in order (row1 column1) (row1 column2) etc.
*
**************************************************************************************************************************/
double** readMatrix(char* filename, int* size)
{
int i, j;
double** matrix;
FILE* matrixfile;
/* open file */
if ((matrixfile = fopen(filename, "r")) == 0)
{
printf("Error: file does not exist.\n");
exit(1);
}
/* allocate memory */
fscanf(matrixfile, "%d", size);
matrix = matallocd(*size, *size);
/* write file to memory */
for (i = 0; i < *size; i++)
for (j = 0; j < *size; j++)
fscanf(matrixfile, "%lf", &matrix[i][j]);
return matrix;
}
/*************************************************************************
*
prints the entries of a two-dimensional memory block in matrix form *
**************************************************************************/
void printMatrix(double** matrix, int size)
{
int i, j;
if (size == 0)
printf("Error: the matrix size is zero.\n");
/* actually print */
for (i = 0; i < size; i++)
{
for (j = 0; j < size; j++)
printf("%lf\t", matrix[i][j]);
printf("\n");
}
printf("\n");
16
}
/************
* MAIN
*
*************/
int main(int argc, char** argv)
{
//
int sizeA, sizeB;
int Q;
/* initialize bsp */
bsp_init(matrixm, argc, argv);
//
//
//
//
//
//
//
//
//
/* sequential part */
A = readMatrix("a.txt", &sizeA);
B = readMatrix("b.txt", &sizeB);
if (sizeA != sizeB)
{
printf("Error: incompatible matrix dimensions.\n");
exit(1);
}
else
size = sizeA;
/* size of matrices */
printf("Give matrix size:");
fflush(stdout);
scanf("%d", &size);
/* number of processors to use */
printf("How many processors do you want to use?\n");
fflush(stdout);
scanf("%d", &P);
/* P has to have a value equal to 1,4,9,16,... */
Q = (int)sqrt(P);
if ( Q*Q - P != 0 )
{
P = Q*Q;
printf("Warning: using %d processors.\n", Q*Q);
}
/* P cannot be bigger than number of available processors */
if ( P > bsp_nprocs() )
{
printf("Error: not enough processors available.\n");
exit(1);
}
/* SPMD part */
matrixm();
exit(0);
}
17
Bijlage B
Source code 3d programma
#include "bspedupack.h"
/* This is a program that can be used for computing matrix-matrix multiplications in a 3D fashion
Therefore it will only run on 1,8,27,64,... processors */
int P;
int size;
/* number of processors requested */
/* size (in one dimension) of input matrices */
/* these functions are usefull when transforming processornumbers from 1D to 3D and vice versa
the offset function transforms a 2D matrix index in a memory position (1D) */
int pid(int q, int x, int y, int z)
{
return ((q*q*z) + (q*y) + x);
}
int xpid(int q, int s)
{
return (s%q);
}
int ypid(int q, int s)
{
return ((s/q)%q);
}
int zpid(int q, int s)
{
return (s/(q*q));
}
int offset(int bs, int x, int y)
{
return ((x + bs*y)*SZDBL);
}
/******************
* SPMD FUNCTION *
*******************/
void matrixm()
{
int p;
/* number of processors being used */
int s;
/* current processor number 1D */
int q;
/* q^3 = p; number of blocks on a row (or in a column) */
int bs;
/* blocksize: size of submatrices (which are bs x bs) */
int b;
/* b = bs/q */
int x, y, z;
/* current processor numbers 3D */
int i, j, k;
/* counters */
double t0, t1; /* timers */
/* matrices */
double ** A, ** B, ** C, ** D;
double * pA, * pB, * pC;
/* BEGIN PARALLEL PART */
bsp_begin(P);
p = bsp_nprocs(); s = bsp_pid(); q = (int) (pow(p, 0.333)+0.5);
x = xpid(q,s); y = ypid(q,s); z = zpid(q,s);
/* checks */
if(q*q*q != p) /* rounding errors? */
bsp_abort("Error: q has wrong value!");
if(size%q == 0)
18
{
bs = size/q;
b = bs/q;
}
else
/* blocksize will differ among processors */
{
if (s == 0)
printf("Error: matrix dimensions incompatible with number of processors.\n");
exit(1);
}
/* allocation, registration and initialization of matrices */
A = matallocd(bs, bs); B = matallocd(bs, bs); C = matallocd(bs, bs); D = matallocd(bs, bs);
pA = A[0]; pB = B[0]; pC = C[0];
bsp_push_reg(pA, bs*bs*SZDBL); bsp_push_reg(pB, bs*bs*SZDBL); bsp_push_reg(pC, bs*bs*SZDBL);
for(i = 0; i < bs; i++)
for(j = 0; j < bs; j++)
{
A[i][j] = 0; B[i][j] = 0; C[i][j] = 0; D[i][j] = 0;
}
/* STEP 0: initial distribution */
for(i = 0; i < bs; i++)
for(j = 0; j < b; j++)
{
A[i][j+y*b] = s;
B[j+x*b][i] = 2*s;
}
bsp_sync();
t0 = bsp_time();
/* STEP 1: distribution of elements */
for(i = 0; i < q; i++)
/* loop over processors
for(k = 0; k < b; k++)
/* loop over rows/columns in blocks in submatrices
for(j = 0; j < bs; j++) /* loop over elements in row/column of blocks of submatrices
{
if(i != y) /* skip local get */
bsp_get( pid(q,x,i,z), pA, offset(bs,i*b+k,j), &A[j][i*b+k], SZDBL);
/* get from all processors with same x and y number
get from their submatrices A
get a block of possibly more than one row (depends on b) and put it in local
if(i != x)
bsp_get( pid(q,i,y,z), pB, offset(bs,j,i*b+k), &B[i*b+k][j], SZDBL);
}
bsp_sync();
/* STEP 2: multiplication of local submatrices */
for(i = 0; i < bs; i++)
for(j = 0; j < bs; j++)
for(k = 0; k < bs; k++)
C[i][j] += A[i][k]*B[k][j];
/* STEP 3: add up z-planes; first communicate and than sum up */
/* STEP 3a: communicate */
for(i = 0; i < q; i++)
// loop over processors in z-direction
for(j = 0; j < bs; j++)
// loop over elements
for(k = 0; k < b; k++) // loop over rows/columns in a block
bsp_get( pid(q,x,y,i), pC, offset(bs,j,z*b+k), &B[i*b+k][j], SZDBL);
// get from processors with same x and y number
// get from C submatrix
// save in B submatrix (q*b x bs = bs x bs; so it will fit)
bsp_sync();
/* STEP 3b: sum up locally */
for(i = 0; i < q; i++)
for(k = 0; k < b; k++)
for(j = 0; j < bs; j++)
D[k+x*b][j] += B[i*b+k][j];
bsp_sync();
t1 = bsp_time();
/* test: result */
if (s == 0)
printf("Time needed: %lf\n", t1 - t0);
19
*/
*/
*/
submatrix A */
// for(i = 0; i < bs; i++)
//
for(j = 0; j < bs; j++)
//
printf("3 s = %d: D[%d][%d] = %f\n", s, i, j, D[i][j]);
bsp_end();
}
/************
* MAIN
*
*************/
int main(int argc, char** argv)
{
int Q;
/* initialize bsp */
bsp_init(matrixm, argc, argv);
/* size of matrices */
printf("Give matrix size.\n");
fflush(stdout);
scanf("%d", &size);
/* number of processors to use */
printf("How many processors do you want to use?\n");
fflush(stdout);
scanf("%d", &P);
/* P has to have a value equal to 1,8,27,64,... */
Q = (int)(pow(P, 0.333) + 0.5);
if ( Q*Q*Q - P != 0 )
{
P = Q*Q*Q;
printf("Warning: using %d processors.\n", Q*Q*Q);
}
/* P cannot be bigger than number of available processors */
if ( P > bsp_nprocs() )
{
printf("Error: not enough processors available.\n");
exit(1);
}
/* SPMD part */
matrixm();
exit(0);
}
20
Bijlage C
Source code sequentiëel
programma
#include <time.h>
#include <stdio.h>
double **matallocd(int m, int n)
{
/* This function allocates an m x n matrix of doubles */
int i;
double *pd, **ppd;
if (m==0)
{
ppd= NULL;
} else
{
ppd= (double **)malloc(m*sizeof(double *));
if (ppd==NULL)
{
printf("matallocd: not enough memory");
exit(1);
}
if (n==0)
{
for (i=0; i<m; i++)
ppd[i]= NULL;
} else
{
pd= (double *)malloc(m*n*sizeof(double));
if (pd==NULL)
{
printf("matallocd: not enough memory");
}
ppd[0]=pd;
for (i=1; i<m; i++)
ppd[i]= ppd[i-1]+n;
}
}
return ppd;
} /* end matallocd */
int main()
{
int i, j, k, size;
double ** A, ** B, ** C, time;
clock_t t0, t1;
printf("Gimme size: ");
fflush(stdout);
scanf("%d", &size);
A = matallocd(size, size);
B = matallocd(size, size);
C = matallocd(size, size);
for(i = 0; i < size; i++)
for(j = 0; j < size; j++)
21
{
A[i][j] = i*j;
B[i][j] = i*j;
}
t0 = clock();
for(i =
for(j =
for(k =
C[i][j]
0;
0;
0;
+=
i < size; i++)
j < size; j++)
k < size; k++)
A[i][k]*B[k][j];
t1 = clock();
time = (double)((double)t1 - (double)t0)/(double)CLOCKS_PER_SEC;
printf("\n\nTicks: %d, CLK_TCK: %d, Total time: %lf\n", t1-t0, CLOCKS_PER_SEC, time);
return 0;
}
22
Bibliografie
[1] http://www.bsp-worldwide.org/
[2] Rob H. Bisseling, Parallel Scientific Computation, Oxford University Press, 2004
[3] http://www.phys.uu.nl/~vbrug/vakken/wipa/project1
[4] http://www.sara.nl
23
Download