Replikere resultater fra pd.merge i SQL?

stemmer
18

Jeg har lekt med noen datasett lokalt i Python, og prøver nå å gjenskape de samme resultatene i et skymiljø med SQL.

Jeg har 3 tabeller, hver med flere dupliserte ID-er. For eksempel vil tabell A inneholde ID-er a, b, c, d, ... , tabell B vil inneholde ID-er a, c, e, a1, a2 ... , og tabell C vil inneholde ID-er d, f, a2, b1, b2, ...

Det holder jeg på med pd.merge for tabell A og tabell B på ID a , og tabell C med den resulterende tabellen fra første fusjon på ID a2 . Når jeg brukte pd.merge, la jeg merke til at den ville legge til en _x eller a _y til duplikat-ID-ene (med det mener jeg i det første pd.merge av tabell A og tabell B, c fra tabell A ville bli c_x , og c fra tabell B ville bli c_y og så videre for andre dupliserte ID-er. Det samme vil gjelde for andre dupliserte ID-er for eventuelle sammenføyninger.

Hvordan ville jeg være i stand til å gjenskape denne prosessen og omgå problemet med dupliserte ID-er i SQL?

Publisert på 26/05/2020 klokken 03:30
kilden bruker
På andre språk...                            


1 svar

stemmer
0

Jeg tror du kan gi nytt navn i sammenføyningen til resten av de sammenføyede kolonnene med nye navn:

SELECT table_A.ID_a, table_A.c_ID as c_ID_from_A, table_B.c_ID as c_ID_from_B
FROM table_A
JOIN table_B ON(table_A.ID_a = table_B.ID_a)

Håper du synes det er brukbart.

Svarte 10/06/2020 kl. 15:51
kilden bruker

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more