Trước tiên tôi có ý kiến thế này:
01- nếu những gì tớ viết dưới đây mà quý vị cho là tầm phào thì cho phép tơi có 1 lời xin lỗi đến bạn Capser và sau đó nói rằng bạn Capser xứng đáng dứng ngang hàng với T.A. Brown người viết cuốn Genomes 2 và Pierce tác giả cuốn Genetics-A Conceptual Approach, hai cuốn sách gối đầu giường của dân di truyền vì anh Capser đã cĩ những tư duy trùng khít với hai tác gia này.Ở dưới tôi sẽ viết tắt là Genomes và Gentics để chỉ 2 cuốn này)
02- nếu những gì tơi viết mà quý vị cho là đúng, thì tuỳ quý vị.
Về bản tiếng Việt mà cĩ là do một sự tình cờ, mà tác giả của nó là không muốn phổ biến vì còn thiếu sót. Nếu muốn đọc để hiểu thì được chứ đừng có truyền bá lung tung.
Bây giờ trước tiên tơi sẽ trích lại một phần của tập tài liệu này
......
Trình tự gene người trong cả hai dự án đều lên đến 3,2 – 3, 4 tỷ bp. Để thấy mức độ khổng lồ của trình tự này, ta hãy hình dung như sau: cứ 60 bp thì dài khoảng 10 cm trong một cuốn sách khổ lớn. Như vậy nếu in hết toàn bộ trình tự thì nó dài 5000 km, bằng chiều dài từ Montreal đến London hoặc từ Los Angeles đến Panama hoặc từ Tokyo đến Calcutta hoặc từ Cape Town đến Addis Ababa hoặc từ Auckland đến Perth (hình 37). Và cần 5000 cuốn danh bạ điện thoại khổ lớn mới in ra hết.
Có một điều chúng ta phải nhớ rằng mặc dù chúng ta gọi là trình tự gene người, nhưng thực tế mỗi cá nhân khác nhau thì hầu như có một trình tự bộ gene khác nhau (ngoại trừ anh chị em sinh cùng trứng). Sự khác biệt giữa mỗi bộ gene đơn lẻ có thể nói là cực kỳ lớn, điều này do cái gọi là tính đa hình do một nucleotide đơn gây ra (SNP- đọc là SNIP viết tắt của Single nucleotide polymorphism trong đó poly là nhiều, đa; còn morph là hình thái, dạng). Nghĩa là ở một vị trị nào đó trong genome người này là A nhưng ở người khác là T. Đến nay đã thiết lập nhận diện trên 1,4 triệu SNP và trung bình thì một đoạn 2 kb sẽ có một SNP. Nghĩa là cứ 2 kb thì có một vi vệ tinh (microsatellite) còn gọi là trình tự lặp lại sóng đôi ngắn (STR – short tandem repeart). Chúng ta sẽ tìm hiểu kỹ về các trình tự vệ tinh ở phần sau, nhưng cơ bản, đó là một chuỗi các nucleotide lặp lại (ví dụ CGCGCGCGCGCG) trong đó số lần lặp lại phụ thuộc từng cá nhân. Nhiều SNP và vệ tinh không tác động lên chức năng của gene nhưng nhiều số khác lại ảnh hưởng rất mạnh. Ví dụ một phần trong số 60.000 SNP nằm bên trong gen đã tác động lên hoạt động của gene, điều này tăng sự đa dạng khiến cho mỗi chúng ta hầu như hoàn toàn khác biệt với người khác về các đặc tính sinh học.
5.1.2. Tính đa hình di truyền dựa trên một nucleotide đơn lẻ
The Human Genome Project không đơn thuần là giải trình toàn bộ bộ gene của người, mà nằm trong dự án này, người ta còn phải nỗ lực khai thác tìm kiếm các thông tin khác tìm ẩn chứa trong bộ gene người. Một trong những dạng dữ liệu đang được tập trung nghiên cứu là tính đa hình di truyền dựa trên một nucleotide đơn lẻ (Single-Nucleotide Polymorphisms – SNP). SNP phản ánh sự khác biệt trình tự DNA của hai cá thể đơn lẻ của cùng một loài ở mức độ một cặp base. Cũøng như đột biến, SNP di truyền như các biến thể allele. Trong một ngữ cảnh nào đó thì SNP cũng giống như allele tức là tạo ra các kiểu hình khác nhau, ví dụ như các nhóm máu, nhưng ở ngữ cảnh khác thì SNP lại không giống như allele tức là nó không tạo ra các kiểu hình khác nhau. SNP tồn tại khá nhiều và xuyên suốt bộ gene. Nếu so sánh NST (ví dụ NST số 3) của hai người khác nhau, người ta có thể nhận thấy cứ trong 1000 bp sẽ có 1 nucleotide khác nhau, tức là 1 SNP/1000 bp. Do tính đa dạng cả về số lượng lẫn mức độ phân bố trong suốt toàn bộ bộ gene, nên SNP được sử dụng như một dấu ấn di truyền nghiên cứu di truyền liên kết. Ví dụ, các SNP của người đang được sắp xếp phân loại và tạo thành bản đồ để sử dụng trong việc chỉ định các gene có liên quan đến bệnh tật, vì khi người ta nhận thấy một SNP nằm gần một locus gây bệnh nào đó về mặt vật lý thì người ta có thể tin rằng SNP này sẽ di truyền cùng với gene gây bệnh này. Như vậy SNP trở thành một dấu ấn di truyền chỉ điểm cho locus gây bệnh cả về định tính lẫn định lượng (xác định được SNP nào đó tức là xác định sự hiện diện của gene gây bệnh đồng thời xác định vị trí của gene này trên genome). Hơn nữa SNP còn sử dụng để chỉ định quan hệ họ hàng của hai hay nhiều đối tượng nghi ngờ. Vì hầu hết mỗi SNP chỉ là một phiên bản duy nhất trong quần thể, nó xuất phát chỉ từ một đột biến duy nhất, do vậy khi có sự hiện diện của cùng SNP ở hai đối tượng nào đó thì có thể kết luận là hai đối tượng này có cùng huyết thống
5.1.3. Đuôi trình tự được biểu hiện
Ngoài SNP đã đề cập ở trên, một dạng dữ liệu khác cũng nằm trong sự quan tâm của HGP, đó là dữ liệu của đuôi trình tự biểu hiện (EST – expressed sequence tags). Ở eukaryote, chỉ có một tỷ lệ phần trăm rất nhỏ DNA thật sự mã hóa cho protein, ở người con số này là dưới 2%. Chính vì con số tỷ lệ DNA mã hóa cho protein quá thấp nên người ta thấy rằng việc nghiên cứu trên toàn bộ bộ gene không hiệu quả bằng nghiên cứu RNA. Khi đó RNA được nghiên cứu bằng cách sử dụng các EST. EST lúc này được xem như là dấu ấn di truyền của trình tự DNA nhưng được nhận diện gián tiếp qua RNA. Để có EST người ta sẽ thu RNA từ tế bào rồi sử dụng phản ứng phiên mã ngược để tái tạo lại các mảnh cDNA tương ứng với phân tử RNA trong tế bào. Các mảnh cDNA ngắn được giải trình tự, và các đoạn trình tự này (lúc này gọi là đuôi) chính là các dấu ấn di truyền DNA trên genome. EST được sử dụng để tìm kiếm các gene hoạt động trong một mô đặc hiệu nào đó hay tại một thời điểm nhất định nào đó trong quá trình phát triển.
5.1.4. Bioinformatics
Vào thời điểm này (11/2003) đã có hơn 100 bộ gene của sinh vật khác nhau được giải trình, và hàng loạt dự án giải trình gene đang diễn tiến. Các dự án này đều đã và đang cung cấp một khối lượng dữ liệu trình tự khổng lồ có liên quan. GeneBank, một trong những nơi tích trữ cơ sở dữ liệu chính hiện đang chứa 19 tỷ bp trình tự và con số này tăng liên tục hàng tháng. Việc phân loại, sắp xếp, lưu trữ, trích lục lượng khổng lồ các dữ liệu này thực sự là một thách thức lớn với các nhà di truyền. Bioinformatics là một lĩnh vực mới nổi lên từ sự kết hợp của sinh học và khoa học máy tính có nhiệm vụ phát triển dữ liệu, phát triển mới các thuật toán tìm kiếm dựa trên máy tính, triển khai các phần mềm chuyên dụng và các công cụ phân tích khác nhằm tạo ra tính đa chiều của dữ liệu trình tự DNA, RNA và protein. Bioinformatics đã và đang phát triển cũng như ứng dụng các công cụ này để ”thu nhỏ” dữ liệu giúp cho việc khai thác chiết xuất thông tin từ các dự án giải trình tự ngày càng tối ưu hơn.
Trước khi giải trình tự, hầu hết genome đều chứa rất ít gene biết rõ vị trí, nhưng sau khi giải trình với một khối lượng dữ liệu trình tự khổng lồ cùng với tính phức tạp cấu trúc gene khiến cho việc tìm kiếm các gene lại trở thành một nhiệm vụ cực kỳ khó khăn. May mắn là các chương trình máy tính đã phát triển để giúp cho việc tìm kiếm trình tự DNA đặc hiệu gắn kết với một gene nào đó trở nên dễ dàng hơn. Ví dụ, các gene mã hóa cho protein được xác lập qua khung đọc mở (ORF- open reading frame) bao gồm một mã mở đầu và một mã kết thúc. Các trình đặc hiệu sẽ chỉ cho thấy vị trí ghép nối giữa điểm khởi đầu và kết thúc của các intron. Một trình tự đặc hiệu khác thường bắt gặp đó là các trình tự nằm trên promoter ngay trên codon khởi sự. Các chương trình máy tính có nhiệm vụ quét qua toàn bộ trình tự của một đoạn DNA và sau đó sẽ chỉ ra vị trí chính xác của gene dựa trên cơ sở tìm kiếm sự hiện diện và vị trí của các trình tự đặc hiệu. Một số chương trình khác có khả năng dò tìm dữ liệu EST và trình tự protein để phán đoán liệu rằng một gene nào đó có biểu hiện hay không.
Tuy vậy điều quan trọng cần phải nhận thấy là các chương trình máy tính chỉ định gene trên cơ sở trình tự DNA không thực sự hoàn hảo. Vì vậy có thể thấy rằng con số các gene chứa trong một bộ genome nào đó đã công bố chỉ mang tính tương đối. Sự tồn tại của các intron, cơ chế cắt ghép khác biệt, nhiều phiên bản copy của cùng một gene và các vùng DNA không mã hóa protein nằm giữa các gene đã khiến cho việc chỉ định vị trí và tính toán số số lượng chính xác của gene trong genome còn là một bài toán chưa có lời giải đáp.
................
Bây giờ chúng ta đọc lại những gì anh Casper đã viết về SNP
Dontcry đã nói khá rõ về SNP, tôi xin đưa ra cái định nghĩa SNP thế này, các bác góp ý nhé: SNP (single nucleotide polymorphism) tạm dịch đa hình di truyền do một nucleotide, phản ánh sự khác nhau trong trình tự DNA của hai cá thể thuộc cùng một loài ở mức độ một cặp base.
Đến nay người ta đã biết được trên 1,4 triệu SNP, trung bình 2kb có một SNP. SNP giống đột biến vì nó di truyền như các biến thể alen. SNP khác alen ở chỗ đôi lúc nó không tạo ra các kiểu hình khác nhau.
SNP được coi là một chỉ thị di truyền rất quan trọng do tính đa dạng cả về số lượng lẫn mức độ phân bố trong suốt toàn bộ genome. SNP có thể được sử dụng để chỉ định các gen liên quan đến bệnh tật hay quan hệ họ hàng của hai hay nhiều đối tượng nghi ngờ.
Ta xét câu này của anh Casper trước
SNP (single nucleotide polymorphism) tạm dịch đa hình di truyền do một nucleotide, phản ánh sự khác nhau trong trình tự DNA của hai cá thể thuộc cùng một loài ở mức độ một cặp base.
Bạn dò lên phần giới thiệu (đúng ra là mục 5.1.1) và mục 5.1.2, có 2 câu viết là
Sự khác biệt giữa mỗi bộ gene đơn lẻ có thể nói là cực kỳ lớn, điều này do cái gọi là tính đa hình do một nucleotide đơn gây ra (SNP- đọc là SNIP viết tắt của Single nucleotide polymorphism trong đó poly là nhiều, đa; còn morph là hình thái, dạng).
SNP phản ánh sự khác biệt trình tự DNA của hai cá thể đơn lẻ của cùng một loài ở mức độ một cặp base.
Cứ như 2 anh em cùng cha khác ... ông nội vậy. Nhưng nguyên văn English của nó là đây
The differences between individual genomes are largely due to single nucleotide polymorphisms (SNPs). (genome 2 -http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowSection&rid=genomes.section.5276
One consists of single-nucleotide polymorphisms (SNPs, pronounced “snips”), which are single-base-pair differences in DNA sequence between individual members of a species.
Cứ cho là anh bạn Capser đã tự tư duy, nhưng tự tư duy đến mức trúng phóc ý 2 ông đại sư phụ thì quả thật trên đời hiếm có.
Chưa hết:
câu của anh casper viết
Đến nay người ta đã biết được trên 1,4 triệu SNP, trung bình 2kb có một SNP.
Câu của tác giả Vnese viết
Đến nay đã thiết lập nhận diện trên 1,4 triệu SNP và trung bình thì một đoạn 2 kb sẽ có một SNP.
Câu E gốc là
Over 1.4 million SNPs have been identified, an average of one for every 2.0 kb of sequence (Genomes, xem đường linh đã chỉ)
Câu này nữa
SNP giống đột biến vì nó di truyền như các biến thể alen. SNP khác alen ở chỗ đôi lúc nó không tạo ra các kiểu hình khác nhau.
bản Vnese viết
Cũøng như đột biến, SNP di truyền như các biến thể allele. Trong một ngữ cảnh nào đó thì SNP cũng giống như allele tức là tạo ra các kiểu hình khác nhau, ví dụ như các nhóm máu, nhưng ở ngữ cảnh khác thì SNP lại không giống như allele tức là nó không tạo ra các kiểu hình khác nhau.
Câu nguyên văn E là
Arising through mutation, SNPs are inherited as allelic variants (just like alleles that produce phenotypic differences, such as blood types), although SNPs do not usually produce a phenotypic difference. (Genetics-562)
Tác giả VNese đã dịch lướt qua đoạn này, nhưng vẫn bám đúng nghĩa.
Một câu phân tích tính chất của anh Capser
SNP được coi là một chỉ thị di truyền rất quan trọng do tính đa dạng cả về số lượng lẫn mức độ phân bố trong suốt toàn bộ genome.
Ta xem tác giả Vnese viết
Do tính đa dạng cả về số lượng lẫn mức độ phân bố trong suốt toàn bộ bộ gene, nên SNP được sử dụng như một dấu ấn di truyền nghiên cứu di truyền liên kết.
Nguyên văn E như sau:
Because of their variability and widespread occurrence throughout the genome, SNPs are valuable as markers in linkage studies. (Genetics-562)
Tiếp tục Anh Casper trình bày
SNP có thể được sử dụng để chỉ định các gen liên quan đến bệnh tật hay quan hệ họ hàng của hai hay nhiều đối tượng nghi ngờ.
Tác giả VN viết là
Hơn nữa SNP còn sử dụng để chỉ định quan hệ họ hàng của hai hay nhiều đối tượng nghi ngờ.
Thus the SNP marks the location of a genetic locus that causes the disease.A SNP can also be useful for determining family relationships—most SNPs are unique within a population, having arisen only once by mutation. Thus the presence of the same SNP in two persons often indicates that they have a common ancestor. (Genetics-562)
Trong phần mà anh Capser có chỉ ra ở những đoạn E nào anh ấy đọc rồi từ đó anh ấy tự tư duy ra những điều ở trên. Nếu đúng vậy thì anh Casper quả là thiên tài. Sao mà trúng ý ông Pierce thế.
Bây giờ ta xem cái đoạn về Bioinformatics nhé
Anh Casper viết
Tôi thấy định nghĩa về BI rất khó, vẫn chưa tìm thấy cái định nghĩa nào được sử dụng thống nhất cả. Qua nhiều nguồn tài liệu, tôi xây dựng cái định nghĩa thế này, mong các bác cho ý kiến:
BI là một lĩnh vực độc nhất vô nhị trong khoa học, là sự giao thoa của sinh học, di truyền học, hoá sinh, khoa học máy tính, toán học, thống kê học và nhiều lĩnh vực liên quan khác nhằm tìm kiếm thuật toán, triển khai các phần mềm chuyên dụng, phát triển dữ liệu, và các công cụ phân tích khác trên máy tính nhằm tạo ra tính đa chiều của dữ liệu trình tự RNA, DNA và protein.
mục 5.1.4, tác giả VN viết
Bioinformatics là một lĩnh vực mới nổi lên từ sự kết hợp của sinh học và khoa học máy tính có nhiệm vụ phát triển dữ liệu, phát triển mới các thuật toán tìm kiếm dựa trên máy tính, triển khai các phần mềm chuyên dụng và các công cụ phân tích khác nhằm tạo ra tính đa chiều của dữ liệu trình tự DNA, RNA và protein. (Genetics-562)
Nguyên văn E nó là ở đây
Bioinformatics is an emerging field consisting of molecular biology and computer science that centers on developing databases, computer-search algorithms, gene prediction software, and other analytical tools that are used to make sense of DNA, RNA, and protein sequence data. (Genetics-562)
Chú ý cụm từ .... that are used to make sense of DNA, .. có chữ make sense, tác giả VN không dịch là tạo thành (ý) nghĩa mà dịch thành ... tạo ra tính đa chiều ..
Tới đây tớ bội phục anh Casper, anh ấy đâu có đọc sách Pierce đâu, sao mà anh ta tư duy giống Pierce đến thế
(có vài chỗ font VNese hiện không rõ, xin thành thật cáo lỗi)