개설중인방

[교육]유전학

반전보기 폰트크기
  • 여러분 잘 지내셨어요? 코로나 때문에 세상이 말이 아닌데 몸 조심하시기 바랍니다. 2주차 시작하도록 하겠습니다. 저번 시간에 이어서 Genome에 대해서 설명할 건데 인간의 유전체를 설명해보면 전체가 23개 염색체 내에 있는 모든 DNA sequence를 말하는데 3x10의 9승 정도로 되는 걸로 알려져 있는데 개개의 염색체가 나눠서 Genome을 갖게 되죠? 3x10의 9승에 23개로 나눠져 있는, 가장 적은 22번 염색체에는 그만큼 적은 DNA가 포함이 될 겁니다. 여러분 한번 본인이 생각해보세요. 1번 염색체 내에는 몇 개의 DNA가 있을지 생각해보세요. 대답을 알고 계신 분도 계시겠지만 결국 하나의 염색체에는 1개의 DNA가 있다고 생각하시면 됩니다. 싱글 리니어한 duplex가 있다고 생각하면 되는데 protein하고 뉴클레오를 구성하는 단백질, none 단백질이 꼬여 있어서 염색체를 구성하는데 평균을 내보면 수백 개에서 수천 개의 유전자가 포함이 되어있습니다. 1000, 2000개 이렇게 들어가 있죠? 이 Genome 안에 유전자가 몇 개가 있는지 분석해보니까 사람마다 다릅니다. 연구하는 사람에 따라서 말이 좀 다른데 약 1.3%내에서 2.5%정도가 되겠습니다. 그 sequence만이 단백질과 관련이 있는 부위고 나머지는 단백질 합성과 관련이 없는 부위입니다. 의미있는 부분도 있지만 아직까지 의미를 알지 못하는 반복된 서열이 되어있거나 의미없는 여러 가지 sequence로 구성이 되어있습니다. 옛날에는 Gene으로 작동했을 때 모르겠는데 지금은 유전자 product를 내지 않는 Gene도 있습니다. 개체마다 분석을 해보니까 99.9%가 다 동일하고 0.1%, 3x106승 bp정도로 구성이 되어있는 걸 알 수 있습니다. 이런 차이가 사람들의 키나 체중, 머리털이라든지 개인적인 차이를 나타내는 sequence가 되겠습니다.
  • 그래서 여기 보시다시피 이런 유전자가 어떻게 생겼는지 제대로 알아보잔 얘기죠. 휴먼 Genome 3000000 kb가 어떻게 구성되어있는지 봤더니 유전자거나 유전자와 관련된 게 20에서 30%이고 70에서 80%가 관계가 되어있지 않은 곳이에요. 20에서 30%중에서도 10%미만이 아미노산을 인코딩하고요, 나머지 90% 이상이 none coding을 하는 DNA라고 알려져 있습니다. 아미노산에 인코딩과는 관계가 없는 부분이다, 그중에서 Gene으로 역할을 못하는 부분, Gene이 부분적으로 떨어져 나가서 아무런 product를 내지 못하는 부분도 있고요, 인트론 시퀀스도 아미노산과 관여하지 않는 부분이라고 하겠습니다. 이런 부분이 유전자와 관련이 있고 오른쪽을 보면 약 70에서 80%이 되는 extragenic인데 유니스한 시퀀스인데 아미노산과 관련이 없는, 유니크하지만 기능이 없는 sequence, 이런 적은 copy수를 갖고 있는 부분이 있고요. 20에서 30%를 차지하는 부분은 반복된 서열을 얘기하는데 중간에 아주 많이 반복이 되어있는 sequence들이 보입니다. 여기에서 40% 정도가 디스펄스되어 있는데, 산재가 되어있다는 말인데 반복이 되어있긴 하는데 60%는 일정부분 집중적으로 존재하는 sequence도 있다고 아시면 되겠습니다. 보시는 것같이 반복되어 있는 건데 산재가 되어있는 Genome 내에 산재가 되어있는 놈들을 SINE이나 LINE이라고 얘기합니다. 이런 산재가 되어있는 sequence들도 존재하고 그다음에 어떤 일정부분에 집중적으로 반복이 되어있는 애들 중에서 사이즈가 크면 classical한 세이트레이트인데 반복적인 시퀀스가 존재하고 2학년 때 배웠는지 모르겠는데 카이네트코어를 봤을 때 이런 부분 위치에 classical한 DNA가 존재합니다. 이것보다 작은 것이 마이크로세이트레이트가 있는데 미니가 중간이고 마이크로세터레이트가 가장 작은 겁니다. 하나인 nucleotide, aaa도 반복서열이라고 보시면 됩니다. ACAC가 반복이 되어있는 것도 반복서열로 보시면 됩니다. 이런 식으로 여기저기 산재가 되어있는 반복서열이 존재한다. 즉, 우리 몸에 있는 Genome의 구조를 살펴보면 유전자와 관련이 있는 부분, 전혀 관련이 없는 부분, 관련이 있지만 실질적으로 적용되는 곳은 적은 부분을 차지한다고 볼 수 있어요. 여기는 2%고 나머지 유전자와 관계가 없는 데를 보면 어디에도 없는, 거기에만 존재하는 유니크한 sequence긴 하지만 인코딩하는, 프로틴에 관여하는 부분이 아니라는 거고 또 반복이 되어있긴 하지만 산재가 되어있는 애, 또는 집중되어 있는 애, 이런 식의 dna sequence가 휴먼의 Genome을 구성한다고 보시면 되겠습니다.
  • 그중에서 반복된 copy 수는 많지 않지만 반복된 서열 중에서도 여러 가지가 존재합니다. 그중에서 완전한 homology를 갖고 있는 sequence는 아니지만 진패밀리를 생각할 수 있는데 이건 유전자의 가족이다, 쉽게 말하면 Gene은 서로 다른 이름으로 되어있을 수 있지만 걔가 하는 기능들이 거의 유사하기 때문에, 그리고 sequence자체가 상당히 유사하기 때문에 Gene 패밀리로 분류를 하는 sequence들이 존재합니다. 얘네들은 원래 하나의 유전자에서 시작됐다는 것이 정설입니다. 조상이 되는 유전자가 여기에 있는데 duplication이 되었어요. 시간이 계속 가죠? 진화를 거듭하다 보면 이 똑같은 sequence에서 돌연변이들이 일어나게 됩니다. 일어나다 보면 결국 2개 서로 idnetical했던 유전자들이 조금씩 변화되어서 서로 다른 protein, 이런 구조가 다른 단백질을 만들게 됩니다. 우리가 다른 유전자로 얘기를 하지만 그림에서도 A알파나 A베타라고 썼듯이 A유전자는 맞는데 약간 차이나는 Gene 패밀리를 구성하는 걸 볼 수 있습니다. 그 예시로 globin 유전자를 볼 수 있는데 여기에 보시다시피 알파, 베타가 있다는 걸 알고 있을 겁니다. globin유전자 알파, 베타글로빈 아시죠? 그런데 알파베타 뿐만 아니라 보시다시피 제타나 베타중에서도 델타, 감마, 입슐렌 등 여러 가지가 존재합니다. 원래 하나였는데 중복되어서 여러 개로 나눠지고 또 나눠진 것들이 시간이 지나면서 돌연변이로 누적되어서 변화된 거예요. 알파패밀리, 베타패밀리로 말하고 있습니다. 이런 sequence도 Genome 내에 존재하게 됩니다.
  • 또 다른 반복서열 얘기인데요, SINE이나 LINE이 있는데 어떤 아미노산을 인코딩하는 것과 관련이 없지만 Genome 내에 산재가 되어있는 sequence에 해당된다고 했습니다. SINE은 밑에 보시다시피 짧은, 여기저기 퍼져있다고 하고 LINE은 반복되는 것, SINE이 200이라면 LINE은 1kb라든지 좀 더 긴 거라고 생각하면 되겠습니다. 둘 다 Genome 내에 반복이 많이 되어있고 한 곳에 집중이 되어있지 않고 여기저기 산재되어 분포하고 있다고 생각하면 됩니다. 여러 가지 종류가 존재하고요, LINE도 여러 가지가 존재합니다. 이걸 LINE이라고 총칭해서 얘기하고 SINE도 총칭해서 얘기합니다. Genome 내 10%이상, 전체를 보면 4, 50% 정도 종에 따라서 반복서열이 존재하게 됩니다. 그런데 아직까지 이 SINE이나 LINE이 하는 기능이 어떤 게 있는지는 정의내리기 어렵습니다. 이런 유전자부위가 있다는 건 알지만 피지올로지컬하게 유전학적으로 어떤 기능을 하는지는 명확히알려진 바는 없습니다. 몇 가지학자에 따라서 얘기하는 부분은 있지만 정확하게 우리가 인정하고 받아들일 만한 유전적인 활성은 분명하게 보이지 않고 있습니다. 어쨌든 이런 sequence들이 있고요.
  • 이런 SINE, LINE 같은 sequence들이 생긴 이유 중 하나가 그림에서 보여주고 있는데 트랜스포저블 elements가 있는데 이 elements가 DNA상에 있는 것이 또 다른 DNA상에 자기랑 동일한 sequence를 중복시켜서 위치를 바뀌게 하는 이런 식도 있습니다. 이걸 심플 transposable이라고 하고요, transcription하고 난 다음에 reverse에 의해서 다시 DNA로 바뀌게 됩니다. 바뀐 시퀀스가 또 다른 유전체의 다른 부위로 가게 되는데 동일한 유전체 상에 있는 sequence가 Genome내 또 다른 위치에다가 똑같은 복제품을 만드는 방법도 있습니다. 이걸 retrotransposon 또는 레트로 transposition이라고 합니다. 이렇게 해서 하나의 sequence가 여기저기 반복되는 SINE이나 LINE이 생긴 게 아니겠나, 이런 얘기를 하고 있습니다.
  • 이런 elements는 여러 가지 존재를 하는데 많이 알려진 건, 우리가 많이 공부하는 elements는 drosophila의 p elements가 있습니다. 무슨 일을 하는가 봤더니 밑에 제가 표시해놓은 것처럼 자기가 sequence를 다른 쪽으로 이동시킬 수 있는 그런 능력을 갖게 해주는 enzyme을 만들어서 다른 쪽으로 자기의 sequence를 이동시키는 기능도 있고요, 반대되는 기능도 있는데 이번엔 transposition을 억제합니다. p elements가 자기위치를 다른 쪽으로 바꿀 수도 있고 p elements가 발현되게 되면 어떤 protein을 만들게 되면 이것 자체가 자기 자신이 다른 쪽으로 이동하는 걸 막는 역할도 있습니다. 이동시키는 역할도 하지만 이동을 막아주는 역할도 한다. 그래서 이 p elements들이 실제로 어떤 일을 하는지 그림에서 살펴보시면 여기 초파리 중에서 수컷의 경우는 p elements가 없고 암컷에 p elements가 있는 경우가 되겠습니다. 이런 경우를 보면 난자 안에 p elements의 sequence도 존재하지만 이 p elements의 발현산물인 repressor가 있어요. 다른 쪽으로 이동하지 못하게 막아주는 역할도 합니다. 이런 난자하고 p elements가 없는 정자하고 만나게 되면 수정란 안에는 repressor가 존재합니다. 이 p elements가 다른 쪽으로 이동하지 못하게 막아주죠. 이 p elements가 다른 쪽으로 못간다는 건 Genome내 데미지를 줄 수 없다는 거예요. 그래서 정상적인 초파리가 생기게 됩니다. 이번에는 반대로 암컷에는 p elements가 없고 수컷에만 있는 경우 수정이 되게 되면 이 수정란 속에는 repressor가 존재하지 않고 p elements만 있습니다. 그렇게 되니까 이 p elements가 Genome 내 여러 부위로 이동을 하게 됩니다. 이동하다가 다른 DNA를 공격하게 되죠. 돌연변이를 일으킨다든지 어느 유전자 사이로 끼어든다든지 이런 일이 일어나요. 이 초파리가 정상적인 초파리가 되지 못하고 불임되는 경우가 생길 수 있습니다. 그래서 이걸 교잡증후군 하이브리드 디스제네시스라고 합니다. 여러 부위로 자기의 sequence를 이동시킴으로 인해서 돌연변이를 유발시킬 수 있는 기능도 있다는 거죠. 실험실에서 어떤 일을 할 때 돌연변이를 만들고 싶을 때 p elements를 이용할 때도 있습니다. 여기에서 보시다시피 육종 같은 것도 사실 할 수 있어요. 식물체에서 작동을 시켜서 원하는 돌연변이를 만들 수도 있는데 여기에서 보시면 검은색 포도가 있습니다. 검은색으로 만들어주는 유전자가 있는데 엔소사이아닌이라는 걸 만들어줍니다. 트랜스퍼슨이 들어오면 억제가 되어서 안소사이어닌이 합성이 안 돼요. 하얀색으로 만들어졌다가 또 자기 위치로 바꿔버려요. 나가다 보니까 없어졌는데 그중에 일부가 남아 있을 경우 유전자발현이 완전히 억제되는 게 아니라 부분적으로 억제가 되어서 검은색, 흰색도 아닌 빨간색 포도가 생기게 됩니다. 검은포도에서 흰색, 빨간색 포도를 만드는 일을 할 수 있게 됩니다. 실질적인 p elements라든지 트랜스포저블를 통해서 원하는 형질을 얻는 이런 일도 할 수 있다는 거죠.
  • 이 elements들이 그외에 할 수 있는 여러 가지 일들이 있는데 심각하게 볼 건 없습니다. 일단 이 sequence가 여러 군데 동일한 게 있다 보니까 동일한 곳끼리 크로싱오버가 일어나다 보면 일정부분에 딜리션이 생기기도 하고 임버젼이 일어나기도 하고 딜리션이나 duplication이 생길 수도 있습니다. Gene레벨에서 유전자 활성을 억제한다든지 이런 것뿐만 아니라 chromosome 레벨에서 리어레인지도 할 수 있다고 생각하시면 됩니다.
  • 지금 얘기했던것이 유전체가 어떤 건지 얘기했는데 이번에는 그걸 분석하는데 필요한 여러 가지 도구가 있어야 합니다. DNA marker가 있는데 어떤 개개인을 식별한다든지 집단 간의 차이를 본다든지, 또는 암이나 질환을 가지고 인식할 수 있는 질환의 차이나 원인을 볼 수 있는 것들을 한눈에 확연히 볼 수 있게 만들어주는 marker들이라고 할 수 있겠습니다. 이걸 우리가 총칭해서 DNA marker라고 얘기하죠. 그걸 확인할 수 있는 방법들이 몇 가지가 있습니다. 그중에 하나가 SNP, snip이라고 하는데 원래 snip이라고 부르는 게 맞죠. 어느 쪽이든 상관은 없다고 생각합니다. 하나의 nucleotide를 분석해서 그 차이를 갖고 개체나 집단의 차이를 보는 거라고 할 수 있겠습니다. marker중에 한 종류가 snip이라고 보시면 됩니다. SNP가 얼마나 되는지 봤더니 Genome내 동일하게 분포가 되어있는 건 아니에요. protein을 만드는 부분이냐, 이 부분은 돌연변이가 일어나면 문제가 생기겠죠? 돌연변이가 덜 일어날 거고 none coding하는 부분은 좀 더 일어나도, 예를 들면 Intergenic 유전자가 아닌 부분에서 일어나는 건 어떻게 보면 생리적인 문제를 유발시키지 않으니까 아마 이 돌연변이가 많이 누적될 것입니다. none coding은 1개의 SNP가 보이고요, 평가적으로 이런 정도로 SNP가 있는데 다 합해보니까 사람에서 약 300만 개, AB 사람의 차이를 보니까 300만개 정도가 있더라, 굉장히 복잡한 질환에서 관련이 되어있는 것으로 100만 개는 있다고 추정하고 있습니다. 이런 게 SNP인데 이걸 보기 위해서는 sequencing이 이뤄져야 합니다.
  • sequencing에 대해서 잘 알고 있을 거라고 생각합니다. 생거 메소드에서 나왔는데 여기에서부터 C, A, TT 이렇게 읽어가죠? sequence를 보는 건데 생거 방법에서 나오는 건 한번 생각해볼 필요가 있는 부분이 이겁니다. 원래 sequence는 template가 있으면 상부적인 sequence를 밝히게 됩니다. 원래 sequence에 상부적인 걸 밝혀야 하기 때문에 마지막결과에서 나오는 시퀀스가 있다면 상부적인 것을 읽어줘야 원래 알고자 하는 걸 알 수 있다는 걸 이해하시면 될 것 같습니다.
  • 요즘은 밴드 식으로 나오기보다 결과가 이렇게 오토매틱하게 나올는 경우 이렇게 읽어갈 수 있죠? 여기에서도 마찬가지로 이렇게 읽는 것들은 전부 최종적으로 나온 sequence에 상보적인 걸 읽어야 원래 우리가 알고자 하는 sequence에 일치한다고 볼 수 있습니다.
  • 여기에서부터 쭉 읽어가죠? 이 피크가 이상하게 보면 sequencing이 잘못된 겁니다. 보통 오토매틱하기 때문에 회사에다 맡기면 이런 식으로 위에 읽을 수 있게끔 모양이 표시됩니다. 이건 내가 원하는 sequence는 이런 거구나, 상보적인 걸 찾아서 sequencing을 찾으면 마무리가 될 수 있습니다. 하나의 nucleotide가 G가 있는데 T로 바뀌었다든지 그리면 여기가 snip 사이트구나 생각할 수 있습니다.
  • 슬라이드 몇 장을 뺐는데 반복되는 것 같아서 뺐는데, 2장 뛰고 보시면 됩니다. 어떤 개체의 차이로 볼 수 있는데 sequencing을 하지 않고도 볼 수 있는 방법이 있습니다. RFLP라고 있는데 riflip이라고 읽어도 됩니다. 내용은 restriction이 enzyme으로 잘라졌을 때 잘라진 게 길이가 다르다는 거죠. 노란색 사이트가 있는데 A, B를 보니까 A는 TA고 여기는 CG로 되어있습니다. 이게 리스트릭션을 엔자임으로 자르는 건데 시퀀스 하나만 바뀌어도 못 자르죠? TA로 되어있을 때는 자르는데 CG는 자르지 못해요. 여기부터 여기까지는 잘리고 가운데 잘리는 애가 있고 가운데 잘리지 않는 애가 있죠? 젤러닝을 하다 보면 2개의 fragment로 나뉘는 경우도 있고 하나의 큰 사이즈로 나뉘는 경우도 있습니다.
  • 여기에 보시다시피 밥이라고 하는 사람과 조라는 사람이 있는데 두 사람의 sequence를 봤더니 밥이라고 하는 사람은 enzyme으로 잘리는 부분이 그대로 남아있고 조라고 하는 사람은 sequence에 변화가 왔습니다. 여기는 잘리지 않아요. 밥이라고 하는 사람을 헤슬이라는 enzyme으로 자르면 여기하나, 가운데 하나, 여기하나 3개로 나눠지는데 반해서 조는 2개로 나눠지죠. 이런 식으로 밥이라고 하는 사람, 조라고 하는 사람의 fragment의 모양, 패턴이 다릅니다. 이걸 보고 이 사람은 밥이구나, 조구나 확인할 수 있는 거죠. 이렇게 sequencing을 하지 않고 알 수 있는 방법이 RFLP입니다. 굉장히 편리하다고 할 수 있겠죠?
  • 또 다른 방법으로는 탠덤 리핏이라는 게 있는데 유니크한 sequence라 동일한데 반복서열이 있습니다. 1번은 하나, 반복서열이 2개, 3개, 4개, 5개, 여러 가지가 있을 수 있습니다. 이게 이런 반복이 되는 종류가 50가지도 있을 수 있고 100가지도 있을 수 있는데 allele가 2개가 있으니까 염색체가 2개다 보니까 1번 반복된 거, 3번 반복된 거, 2개씩만 갖게 됩니다. 어떤 사람은 1번반복, 3번반복, 어떤 사람은 10번, 20번반복하는데 반복을 분석해보면 개체차이를 알 수 있겠죠? 반복이 되어있는데 인접이 되어서 반복이 된 숫자가 다르다는 거죠. 개체마다 반복수가 상이하기 때문에 이 특징을 이용해서 우리가 개체간의 차이, 집단간의 차이, 어떤 유전질환자와 정상인 간의 차이를 알 수 있는 거죠.
  • 그중에서 SSR이라고 하는 게 있고 VNTR이라고 하는 게 있습니다. SSR은 심플 시퀀스, ACAC 2개가 반복되는 심플한 것도 있고 VNTR은 반복되는 단위가 큽니다. 비슷한 얘기긴 해요. 사이즈가 좀 큰 것이 VNTR이라고 하죠. 10개에서 60개 정도가 계속 반복이 될 경우 이렇게 됩니다. dna 타이핑도 이걸 이용해서 할 수 있습니다. dna fingerprinting, 지문법이라고 할 수 있는데 지문은 사람마다 다르다는 거죠. 지문을 보는 방법이 VNTR이라고 할 수 있겠습니다.
  • fingerprinting방법의 원리를 보시면 여기에 보시다시피 사람1, 사람2가 있는데 반복이 되는 어떤 부위, A하고 B를 서로 비교한 거예요. 사람1을 보면 첫 번째 부위에서는 5개의 반복을 갖고 있고 2개의 반복을 갖고 있는 allele가 있고 그다음에 VNTR B를 보면 2개의 copy를 갖고 있고 1개의 copy를 갖고 있는 두 allele가 있습니다. 사람2는 3개, 4개를 갖고 있죠? 젤 러닝을 해보면 이렇게 나옵니다. 보시다시피 밴드의 패턴이 달라요. 이런 패턴이 나온 건 1번 사람이구나, 2번사람이구나, 이렇게 개체 간 차이를 알 수 있다는 겁니다.
  • 여기까지만 하고 그다음 장 1, 2장만 하고 끝내겠습니다. dna fingerprint 기법을 법의학적으로 이용할 수 있는데 범죄현장에서 우리가 얻은 dna를 분석했어요. 범인 거라고 추정되는 걸 봤더니 dna fingerprinting을 봤더니 이런 패턴이 나와 있어요. 용의자가 식별이 되어서 2사람이 있는데 누군지 몰라요. dna를 갖고 분석해봤더니 첫 번째 사람은 이런 패턴, 두 번째 사람은 이런 패턴이에요. 범죄현장에 있는 것과 동일한 패턴인 사람이 있다는 거죠. 용의자 두 번째 사람이 범인이라고 알 수 있는 거예요. 이걸 실제로 그림으로 보면 여기는 희생자이고요, 혈흔이 있었습니다. 희생자의 옷에 묻었을 수도 있고 혈흔을 분석했죠. dna분석하니까 이런 패턴이 나왔어요. 희생자와 패턴이 다른 걸 봐서는 또 다른 사람, 범인이라고 생각할 수 있는데 용의자가 3명이 있었습니다. 분석해보니까 패턴이 첫 번째 용의자와 완벽하게 일치합니다. 이렇다는 얘기는 1번이 범인이라고 특정지을 수 있는 근거가 생긴 거죠. 이런 식으로 dna 핑거프린팅을 이용해서 법의학적으로 활용할 수 있고요. 또 부계관계를 보는 방법이 있는데 엄마 것이 있고 자식 게 있어요. 왜 아빠라고 주장하는지 모르겠는데 아빠가 둘이에요. 서로 아빠래요. 누군가 밝혀야 하지 않겠습니까? dna를 그래서 뽑은 거죠. 확인을 했어요. 그러면 여기 아기가 갖고 있는 패턴이 엄마 거하고 아빠 걸 골고루 가질 겁니다. 매칭되는 부분이 있는 사람을 찾아보니까 아빠후보 둘 중에서 두 번째 후보가 매칭이 되고 첫 번째 후보는 전혀 매칭이 되지 않습니다. 이 사람은 탈락, 두 번째 아빠후보가 이 아기의 아빠, 또 엄마의 남편이랄까요? 남편일 수도 있고 애인일 수도 있고 모르겠어요. 하지만 서로의 혈흔관계를 추정할 수 있습니다. 이것이 dna marker, dna fingerprinting을 이용한 법의학적인 방법이라고 할 수 있겠습니다.
  • 이번에는 저번 시간에 이어서 또 다른 STR이라고 하는 게 있습니다. 요즘에는 이게 많이 이용된다고 보시면 되는데 STR에 대해서는 정확하게 기억을 해두실 필요가 있다고 봅니다. 얘도 VNTR이죠? STR이라고 굳이 얘기하는 것들은 지금 많이 사용이 되는 것도 있지만 이 활용가치가 집단 간의 차이를 보는데 굉장히 유용한 부분이 있습니다. 많이 사용이 되는데 둘에서 9개 정도의 nucleotide로 구성되어 있는 건 비슷한데 allele이 어떤 것들을 보면 AGA가 반복이 되어있다고 했을 때 하나일 경우 얼리1, 얼리2, 얼리3이라고 했을 때 allele의 종류가 여러 가지가 있다는 거죠. Genome상에 1, 2, 3번에서도 있을 수 있습니다. 그런데 STR 부위마다 이름이 정해져 있어요. 1번의 어느 부위는 어떤 이름, 다 각자 이름이 정해져 있어요. 이름만 대면 어느 염색체의 어느 STR을 얘기하는지 알 수 있습니다. 이 부위를 보면 사람마다도 다르지만 집단마다도 STR의 종류, 반복된 서열의 종류가 서로 다르다. 미국사람, 한국사람, 빈도수에 따라 다릅니다. 차이가 있습니다. 한국사람은 갖고 있는 동일한 STR인데도 불구하고 미국사람의 빈도는 30%인데 전체 중에서 한국에는 5%밖에 안 된다든지, 하는 이런 차이가 있습니다. 이 STR을 이용해서 어떤 집단에서 특정 사람을 구별한다든지 차이를 보기 위해서는 그 집단에서의 STR의 종류, 집단에서의 STR의 빈도를 우리가 알아야 합니다. STR A 부위에 1번 allele가 나올 수 있는 부분이 1/25이고요, C는 3번 allele가 나올 수 있는 확률이 1/320, 이렇다면 어떤 사람이 STR, ABCD에서 1234 allele를 갖고 있다면 이 빈도는 전부 4개를 곱한 빈도가 되겠습니다. 결국은 1/6000만이 되나요? 10개를 분석했다면 빈도가 거의 똑같은 10개의 STR부위에서 똑같은 allele를 가질 수 있는 확률, 다른 사람이 가질 확률은 없다고 봐야죠. 이런 걸 이용해서 개체간의 차이, 집단간의 차이를 볼 뿐더러 법의학적으로도 많이 씁니다. 많은 allele를 분석해요. STR을 10개, 20개 등 얼마나 많이 보냐에 따라서 나올 수 있는 동일한 allele를 가지고 있는 사람의 확률은 서로 다른 사람인데도 불구하고 동일한 allele를 가질 확률은 떨어지고 희귀해집니다.
  • 법의학적으로 볼 때 이름이 있다고 했죠? 여기 TPOX라든지, D3S11358 등 이름이 있는데 STR의 위치가 돼요. 이 위치마다 예를 들어서 TPOX부분은 allele가 10개, 20개 있을 수 있습니다. 집단, 사람마다 다릅니다. 만약에 여기에 이 부분을 전부 분석했을 때 이 분석한 부위가 동일했다, 예를 들어서 어떤 범죄현장에서 나온 dna하고 용의자 거랑 동일했다면 빼박입니다. 너가 범인이지, 해도 충분히 법적으로 인정받을 수 있는 결과가 돼요. 오른쪽에 보시다시피 제일 위에는 용의자 거라고 보시면 되고요, DS1358, 여기에 패턴이 이렇게 보입니다. 여기 희생자를 보니까 얘랑 다르죠? 다른데 이 사람이 강간을 당했던 것 같아요. FGA는 질 내에 있는 희생자의 세포인데 분석해보니까 희생자 거랑 동일한 패턴이 보입니다. 이 희생자의 질 내에 있던 정자를 분석해보니까 이런 패턴이에요. 용의자 거랑 일치하면 네가 바로 성범죄의 범인이라고 할 수 있는 거죠. 집단마다 똑같은 STR 위치에서의 빈도가 다르다는 거고요. 3개를 분석했을 때 나오는 확률이 이렇게 다르다는 걸 보여주고 있는 거예요. STR을 이용해서 법의학에서 활용할 수 있는데 여기는 코디스 시스템이라고 있는데 FBI에서 많이 사용합니다. 우리나라도 범인을 측정할 때 사용한다고 보시면 돼요. STR에서 많이 볼 수 있는 것들이 DNA를 뽑을 수 있는 것들을 보면 하여튼 그 사람이 숨만 쉬고 갔다면 다 분석할 수 있다고 생각하면 돼요. 마스크, 캔 입주변에 있던 것, 머리털, 담배꽁초는 100%이고요, 혈흔도 마찬가지, 양말을 벗고 지나갔다, 양말에 상피세포들, 이빨이 빠졌다면 DNA의 보고입니다. 바깥에 있는 상아질에는 없지만 안에는 DNA가 존재합니다. 우표를 붙인다고 혀로 침을 묻혔다면 상피세포가 많이 붙어 있습니다. 인골에도 많이 있어요. 분석하는 게 어렵지 않고 어느 정도의 스킬만 가지면 알 수 있습니다. marker들을 분석해서 여러 가지 우리가 범죄의 범인을 잡는다든지 어떤 객체의 조상을 찾을 수도 있는 거죠. 이런 식으로 하나하나 sequencing하는 것이 너무 어렵고 시간도 많이 걸리고 어떤 면에서 재료도 많이 듭니다.
  • 그래서 칩이라는 게 나왔어요. 이 어레이방법을 통하면 한번에 한 군데 snip이 아니라 SNP를 보는 게 아니라 굉장히 여러 군데, 100만 군데가 다르다고 했는데 한번에 다 찾아낼 수 있는, 이론적으로 그런 방법이 되겠습니다. 조그만 칩에 깨알같이 우리가 생각하고 있는, 100만 개에 해당되는 nucleotide를 붙여놓고 우리가 분석하고자 하는 dna랑 어느 올리버 nucleotide가 바인딩하는지 알아보는 거예요. 어느 위치에 어느 sequence가 있는지 알고 어느 위치랑 binding하는 걸 확인하면 100만개의 nucleotide sequence의 snip을 알 수 있는 거죠.
  • 100만개를 보고자 하는 부분이 되겠습니다. 이 시퀀스는 알고 있는데 언노운 시퀀스를 붙였어요. ATAT부분은 바인딩을 해요. 빨간건 TA로 되어있는 snip을 갖고 있고 여기는 CG를 갖고 있는 allele라는 거죠. 여기만 바인딩이 되어있는 건 내가 알고자 하는 시퀀스는 ATG는 아닌 거고 CG쪽에 보이는 상황이에요. 기계로 봤을 때 이 부분에 형광이 뜨면 이쪽에 있는 걸로 봐서는 homozygous하게 CG를 갖고 있는 걸 알 수 있고 마지막을 보면 2군데 다 떴어요. AT도 있고 GC도 있는 걸 알 수 있습니다. heterozygous하다고 할 수 있습니다. 어느 위치에 표시되는지 기계적으로 확인하면 100만 개의 snip위치의 sequence가 어떻게 구성되어 있는지 알 수 있는 거죠. 칩에 중요한 응용가치입니다.
  • 그래서 또 한 가지 snip만 보는 게 아니라 진익스프레션도 볼 수 있습니다. microarray가 100만개 등이 있어요. 이 칩 안에 붙여놓고 알고자 하는 cell에서 RNA를 뽑고 Cdna를 만들어서 이 칩하고 붙여보는 거예요. 예를 들어서 붙이면 발현이 많이 된 애들은 동일한 시퀀스가 많을 테니까 많이 붙을 거예요. 빨간색깔로 표시했다면 빨간색이 많이 보일 거고 그렇지 않다면 별로 보이지 않을 거예요. 여기에 있는 칩에서 기계적으로 intensity를 읽어보면 어느 유전자부위, 어느 부분은 발현이 많이 되어있고 많이 안 되어있는지 한 눈에 알 수 있습니다. 유전자를 수백 개, 수천 개의 유전자의 발현을 한꺼번에 볼 수 있는 칩이 되겠습니다.
  • 또 microarray를 갖고 노말하고 cancer의 발현양상을 볼 수 있습니다. 노말은 초록색이고 tumor는 빨간색으로 만들었습니다. 이 칩에 binding을 시켜보면 부위에 따라서 만약에 파란색만 나온다면 노말에서 발현이 많은 거고 빨간색만 나온다면 tumor에서 발현된다고 할 수 있습니다. 색깔의 차이를 갖고 어떤 곳은 발현이 멈췄는지 알 수 있습니다. microarray를 갖고 진 익스프레션을 볼 수 있는데 활용될 수 있다는 얘기입니다. 이 microarray를 이용해서 어떤 암이 얼마나 많이 진행되었고 중에 어떤 식으로 진행될지 예측할 수 있습니다. 예를 들어서 여기를 보면 cancer cell을 보면 빨간색, 노말하면 초록색으로 만들어서 이 칩에다가 붙였어요. 위에 보면 이쪽 유전자가 어떻게 보면 많이 cancer 중에서 많이 발현되는 유전자이고 이쪽에서는 도리어 이쪽에는 노말이 많이 발현되고 이쪽에는 cancer가 많이 발현되는 걸 볼 수 있습니다. 위에는 5년 동안의 생존, 암이 재발하지 않는사람들의 유전자 발현패턴이고 밑 부분은 문제가 있는 경우죠. cancer가 스프레드, 진행이 되는 경우 퍼지는 경우인데 어떤 사람의 케이스를 알고 싶을 때 분석하는 거예요. 위의 패턴이라면 상당히 안전할 거고 만약 아래의 패턴으로 나오면 상당히 위험하다고 짐작할 수 있겠죠? 이런 식으로 microarray를 이용해서 여러 가지 응용할 수 있다는 걸 알 수 있습니다.
  • 여기에서는 조금 전이랑 비슷한데 아까는 microarray를 칩에 붙였는데 염색체에도 붙일 수 있습니다. binding을 시킬 수 있다는 얘기죠. 그렇게 봤을 때 어떤 유전자 하나, 하나를 볼 수는 없습니다. 유전자 수준에서의 변화를 볼 수 있는데 여기에 비어있는 부분은 centromere 부분이고 빨간색, 파란색이 서로 적당히 존재하고 있으면 일부분에 와 있을 텐데 어느 부분을 봤더니 전체적으로 intensity가 올라가 있어요. 그 부분이 2배나 많아 졌다, duplication이 됐다는 의미를 말해주고 있고요, 어느 부분을 봤더니 1보다 떨어져 있어요. 얘는 여기가 떨어져 있어요. chromosome에는 딜리션이 일어났다, 11번은 여기, 17번은 여기에 일어났다. 암세포에서 일정 세포에 딜리션, duplication이 일어났다는 걸 확인할 수 있습니다. 칩을 사용할 수도 있고 DNA하고 레이블링한 DNA를 이용해서 chromosome 레벨에서의 변화를 알 수 있습니다.
  • 그리고 마커 중에서 copy넘버, CNP가 보면 다른 어떤 marker들은 상당히 적은 것이 반복이 되어있는데 이건 굉장히 큽니다. 1kb나 1mb가 반복이 되어있거나 떨어져 있습니다. 이런 경우를 CNP라고 합니다. CNP marker라고 생각하시면 됩니다. 얘네들을 분석해보니까 어떤 부분에서는 copy 수가 1.5배예요. copy수가 하나 많아졌다는 얘기가 되고 어떤 곳은 1/2밖에 안 돼요. 한 allele가 떨어져나갔다는 거예요. 미싱된 부분이 있고 이런 걸 알 수 있어요. microarray를 통해서 알 수 있습니다. 이런 걸 사람에 따라서, 아프리카, 아시아, 유럽인 다 보니까 1500군데의 CNP를 보여주는 부분이 있다는 거예요. 평균길이는 200에서 300kb정도가 있다. 왜 이렇게 되어있나 봤더니 다는 아니지만 말라리아에 대한 저항성과 관련이 되어있어요. 이런 CNP는 관련이 되어있고 에이즈 유발하는 바이러스하고 관계가 되어있는 이런 위치에 CNP가 존재합니다. 에이즈에 대한 저항성을 나타내는 sequence로도 작용되는 것을 알 수 있습니다. 또한 당뇨병, 알츠하이머 등과 같은 질병에도 관련이 되어있어서 CNP가 존재하느냐, 아니냐, 얼마냐에 따라서 위험도를 확인하는 연구도 진행되고 있다고 생각하시면 되겠습니다.
  • 그래서 여기에 보시다시피 CNP가 2개가 있으면 되는데 어떤 곳에는 하나가 copy가 duplication이 되어있어요. intensity가 1.5배가 됩니다. 위치하는 부분이 말라리아 저항성이라든지 여러 가지 질병이 관련이 되어있더라, CNP가 관여가 되어있는 걸 알 수 있고 계속 밝혀질 거라고 생각합니다.
  • 얘기드리고 싶은 거 하나가 NGS라는 게 있습니다. 칩을 이용하고 뭘 하는 건 좋아요. 그런데 snip부위를 우리가 알죠? 알고 있는 부분에 sequence가 어떻게 바뀌었는지 보는 거예요. 그런데 모자라다는 거예요. 알지 못하는 부분에서 변이가 있을 수 있어요. 그래서 3X10의 9승을 빠른 시간에 확인해보고 싶은 거죠. 여러분이 알고 있는 휴먼지놈 프로젝트는 수많은 사람들이 유전자 sequence가 어떻게 되어있는지 확인하기 위해서 노력했었죠. 제가 옛날에 많이 했었던 일입니다. 그때가 90년대 초중반이었죠. 그때부터 해서 2000년대까지 계속해서 그런 일이 수행이 되었는데 이제는 완성이 거의 된 상태예요. 이제는 아주 우리가 손쉽게 Genome의 sequence를 알 수 있는데 옛날하고 똑같은 방법으로 시퀀싱하기 위해서는 수없이 많은 사람이 분석해야 돼서 바보같은 짓이 되어버려요. 그래서 이런 방법을 고안해냈어요. 그런데 2001년도, 제가 교수가 된지 얼마 안 됐을 때 같은데 이 시기에는 이렇게 많은, 얼마라고 얘기하기도 어려울 정도로 천문학적인 돈이 들었어요. 풀 Genome을 시퀀싱하기 위해서 이렇게 많이 돈을 들었는데 1000불 내외로 할 수 있을만큼 요즘은 싸졌습니다. 옛날보다 간략하게 손 위에 올려놓을 정도의 기계라도 어느 정도 시퀀싱이 가능해지게 바뀌었습니다. 아마 시간이 지나면 훨씬 더 싸고 빠르고 정확하게 whole Genome sequencing이 가능할 거라고 생각합니다.
  • 그런데 회사마다 좀 방법이 달라요. 그 다른 것에 하나의 이론적인 내용, 개념만 얘기를 드리자면 보시다시피 염색체가 있어요. enzyme으로 자르다보면 fragment가 생겨요. 1, 2, 3, 4 fragment가 하나씩 자르는 게 아니라 어떤 fragment는 1번만 갖기도 하고 어떤 건 2개, 1개를 갖습니다. 모아보면 1번부터 4번이 이 안에 다 있어요. 여기부터 여기까지의 sequence를 다 갖고 있는 sequence가 우리 손 안에 있어요. 이런 걸 contig이라고 합니다. 1번 chromosome의 contig이다 하면 fragment의 수는 어떤 방식을 사용하냐에 따라서 다르지만 걔네들을 다 모으면 1번 염색체에 sequence가 다 존재한다는 거죠. 이렇게 contig을 짠 상태에서 하나, 하나의 fragment를 시퀀싱을 다 했다고 생각해보세요. 오버랩을 해보면 1번부터 4번까지 알 수 있게 되죠? 이렇게 하는 걸 기계화시킨 것이 조금 전에 봤던 기계적으로 하는 방식이에요. 사람이 하게 되면 엄청난 시간과 노력이 들기 때문에 현재로 할 수 없는 방법이고 과거에 많이 했던 방식이죠. 우리가 다시 반복할 수는 없으니까 기계가 대신 그 일을 반복해줍니다. 기본은 이래요.
  • 다시 한 번 말씀을 드리면 contig이 있어요. fragment가 쭉 있는데 여러 개가 있어요. 다 이렇게 어레인지 시켜보니까 여기부터 여기까지의 sequence를 알 수가 있어요. 그러면 여기는 여기부터 여기까지를 포함하고 있는 contig이 하나가 생기는 거예요. 그래서 이렇게 이 시퀀스를 전부 sequencing을 완료하다 보면 오버랩이 되는 부분도 나올 거고 그 부분을 전부 모아서 봤더니 긴 sequence를 알게 되는 거죠. contig이라고 하는 건 중복되지만 연속하는 dna의 집합체라고 보면 됩니다. 그래서 이렇게 sequencing을 하고 시작부터 끝까지 다 할 수 있는 거죠. 실질적으로 chromosome의 시퀀스를 보니까 contig 하나가 있고 두 번째, 세 번째가 있습니다.
  • 얘네들이 오버랩을 시켜서 연결시키고 보니까 여기부터 여기까지의 긴 sequence를 얻게 된 거예요. 계속 연속하면 1번 염색체 전체를 알 수 있고, 2번, 3번을 알 수 있는데 전체적으로 Genome을 알 수 있는 거예요.
  • 여기 유전자는 알다시피 promoter도 있고 codon도 있고 여러 가지 부위들이 있습니다. 이런 sequence들이 기본적으로 구조가 있습니다. 대충 어떤 시퀀스가 있고 UTR은 어떻게 있고, 자기들 나름대로 특징이 있습니다. sequencing해서 나왔으면 어떤 유전자인지도 알아야 하겠죠? 그래서 이런 방법들을 하는 거예요.
  • 시퀀스가 나와 있을 때 프로그램을 돌립니다. 여기에 있는 것처럼 여러 개의 데이터가 나오는데 첫 번째부터 읽을 수 있고 여러 가지 프레임이 있을 거예요. 3개, 3개씩의 nucleotide sequence가 달라지니까 예측할 수 있는 아미노산종류는 많을 겁니다. 그중에서 가장 적당한 sequence가, 원래 유전자로 작동하는 sequence가 어떤 게 있는지 확인하는 거죠. 아미노산 시퀀스를 봤더니 스타코든이 계속 있는 건 제고가 되어야 하겠죠? 이건 sequence를 넣으면 다 알 수 있고요, 넣지 않아도 됩니다. 우리가 알고자 하는 것들을 매칭만 시켜보면 되고 기본적으로 과거의 개념을 얘기하자면 이렇다고 말씀드릴 수 있어요.
  • 그래서 이렇게 sequencing한 거에서 지금처럼 매칭을 시켜보니까 여기는 regulation하는 부분, 여기는 엑손부위, 이렇게 알 수 있는 거예요. sequence를 어디부터 시작하는지 알면 아미노산이 어떤 건지 알고, Gene이 어떤 건지도 알 수 있고 기능도 알 수 있는 거죠. 어떤 sequence를 분석할 수 있는 바이오인프로메틱스가 있는데 여러 가지 뱅크가 있습니다. 이걸 이용해서 분석한 시퀀스들을 최종분석을 하는 거죠. 어떤 유전자고 어디가 잘못됐고, 이런 걸 확인할 수 있습니다.
  • 그래서 Gene 뱅크에서 BLAST라는 게 있습니다. 여러분이 온라인 상에서 많이 찾아볼 수 있습니다. 알고 있는 sequence와 알고자 하는 sequence를 매칭해봤더니 많이 돼요. 93%나 돼요. 원래 알고 있는 sequence가 마우스에 insulin receptor진이에요. 시퀀스가 Rat의 receptor Gene이겠구나, 하는 걸 알 수 있습니다. 차이점을 알 수도 있고 그걸 통해서 그 유전자의 기능도 확인할 수 있습니다.
  • 여기 쥐 같은 경우 마우스랑 비교해보니까 85% 아이덴티티가 있어요. BLAST를 조사해보면 내가 갖고 있는 건 LEP이겠구나, 확인해볼 수 있습니다. 시간이 되어서 오늘은 여기까지 하겠습니다. 다음 시간에는 챕터1의 마지막부분이랑 2장을 강의하도록 하겠습니다. 몸 조심들 하시고요, 다음 주에 뵙겠습니다.