What's new

Gene Ontology

pththao

Member
GO hệ thống ngôn ngữ định nghĩa để mô tả gene (mục đích là thống nhất cách mô tả gene, và quan trọng hơn là có thể mô tả trên máy tính). GO term là một từ trong hệ thống GO, mang một ý nghĩa nhất định nào đó, và được ký hiệu với số hiệu nhất định, ví dụ GO12345: apoptosis due to DNA damage; GO78910: transcription regulation. GO term không độc lập với nhau mà có quan hệ phụ thuộc: is hoặc is-apart-of, ví dụ GO12345 "is-apart-of" GO203040: apoptosis. Tất cả các GO và quan hệ có thể biểu diễn bằng network với đỉnh (nodes) là GO terms, và cạnh (edge) là các quan hệ tạo thành GO network.
 

duydubn

Member
Anh pththao cho em hỏi trong bài báo có đoạn này:
Em chưa thực sự hiểu về kỹ thuật DCA , anh có thể giải thích cho em về nó được không ạ . Cám ơn anh!


Node-based. Node-based approaches rely on comparing the
properties of the terms involved, which can be related to the terms
themselves, their ancestors, or their descendants. One concept
commonly used in these approaches is information content (IC),
which gives a measure how specific and informative a term is. The
IC of a termc can be quantified as the negative log likelihood
-log p(c)
where p(c) is the probability of occurrence of cin a specific corpus
(such as the UniProt Knowledgebase), being normally estimated
by its frequency of annotation. Alternatively, the IC can also be
calculated from the number of children a term has in the GO
structure [7], although this approach is less commonly used.
The concept of IC can be applied to the common ancestors two
terms have, to quantify the information they share and thus
measure their semantic similarity. There are two main approaches
for doing this: the most informative common ancestor (MICA
technique), in which only the common ancestor with the highest
IC is considered [8]; and the disjoint common ancestors (DCA
technique), in which all disjoint common ancestors (the common ancestors that do not subsume any other common ancestor) are
considered [9].
Approaches based on IC are less sensitive to the issues of
variable semantic distance and variable node density than edge-based measures [8], because the IC gives a measure of a term’s
specificity that is independent of its depth in the ontology (the IC
of a term is dependent on its children but not on its parents).
However, the IC is biased by current trends in biomedical
research, because terms related to areas of scientific interest are
expected to be more frequently annotated than other terms.
Nevertheless, the use of the IC still makes sense from a
probabilistic point of view: it is more probable (and less
meaningful) that two gene products share a commonly used term
than an uncommonly used term, regardless of whether that term is
common because it is generic or because it is related to a hot
research topic.
Other node-based approaches include looking at the number of
shared annotations, that is, the number of gene products
annotated with both terms [10]; computing the number of shared
ancestors across the GO structure; and using other types of
information such as node depth and node link density (i.e., node degree) [11]
 

duydubn

Member
Em đang làm 1 đề tài về tin sinh anh ạ.
Do mới tham gia nên em chưa biết cách đọc tài liệu. Em sẽ cố găng tìm hiểu.
Cám ơn anh về câu trả lời!
 
Last edited:

duydubn

Member
Anh ơi cho em hỏi cụm từ " the common disjunctive ancestors" có thể hiểu như thế nào được ạ? Nếu dịch bình thường "tổ tiên chung tách biệt ( rời rạc)" nghe có vẻ không hợp lý lắm.
Cám ơn anh!
 

pththao

Member
Dịch thế nào là chuyện khác rồi, tạm dịch là "tổ tiên chung phân biệt" cũng k có gì sai lắm. "Hiểu" thế nào thì dựa vào định nghĩa của họ thôi:

Two common ancestors are disjunctive if there are independent paths from both ancestors to the concept. By independent paths we mean those that use at least one concept of he ontology not used by the other paths. Therefore, two disjunctive ancestors of a concept represent two distinct interpretations of a concept.
Hai... tổ tiên của một khái niệm coi là phân biệt với nhau nếu tồn tại các đường truy dẫn độc lập từ hai khái niệm tổ tiên đến khái niệm đang xét. (Hai) đường truy dẫn được gọi là độc lập nếu tồn tại ít nhất một khái niệm sử dụng bởi mỗi đường mà không phải là bởi đường kia. Vậy hai... tổ tiên phân biệt với nhau thể hiện hai diễn giải độc lập của khái niệm.
 

duydubn

Member
Để so sánh sự tương đồng về chức năng của 2 sản phẩm gen thì ta so sánh đồ thị GO của 2 gen đó dựa vào các term có trong cả 2 đồ thị.
Theo tài liệu em tìm hiểu thì có 2 hướng tiếp cận để so sánh sự tương tự giữa 2 term:
- Dựa vào cạnh:
+ Đường đi ngắn nhất giữa 2 term
+ Đường đi trung bình của tất cả các con đường nối giữa chúng
- Dựa vào nút

Theo em hiểu thì giữa các nút trên 2 đồ thị khác nhau thì đâu có liên kết nào giữa chúng ?
Hay phương pháp tiếp cận bên trên là giành cho các term trên cùng 1 đồ thị ? Nhưng nếu như vậy thì ý nghĩa của việc so sánh các term trên cùng 1 đồ thị là gì vì mục đích của mình là đi so sánh 2 đồ thị khác nhau mà ?

Mong mọi người giải đáp giúp!
 

pththao

Member
Để so sánh sự tương đồng về chức năng của 2 sản phẩm gen thì ta so sánh đồ thị GO của 2 gen đó dựa vào các term có trong cả 2 đồ thị.
Theo tài liệu em tìm hiểu thì có 2 hướng tiếp cận để so sánh sự tương tự giữa 2 term:
- Dựa vào cạnh:
+ Đường đi ngắn nhất giữa 2 term
+ Đường đi trung bình của tất cả các con đường nối giữa chúng
Chú ý phân biệt giữa so sánh hai *term* và hai *gene*.
- Dựa vào nút

Theo em hiểu thì giữa các nút trên 2 đồ thị khác nhau thì đâu có liên kết nào giữa chúng ?
Hay phương pháp tiếp cận bên trên là giành cho các term trên cùng 1 đồ thị ? Nhưng nếu như vậy thì ý nghĩa của việc so sánh các term trên cùng 1 đồ thị là gì vì mục đích của mình là đi so sánh 2 đồ thị khác nhau mà ?
Mỗi gene được mô tả bằng một subgraph (đồ thị con) của đồ thị lớn (là toàn bộ Gene Ontology graph). Vậy các nút có thể được so sánh với nhau vì chúng cùng thuộc đồ thị mẹ: đơn giản nhất là số lượng nút giống nhau cho biết hai gene giống nhau thế nào (enrichment analysis).

PS: đây không phải là những cách hiệu quả nhất...
 

duydubn

Member
Do em mới tìm hiểu mà tài liệu mới nhất em chưa tìm được, anh có thể cho em biết cách hiệu quả nhất mà người ta đã làm là gì được không ạ? Tks a!
 

pththao

Member
"Không phải là những phương pháp tốt nhất" là mình muốn nói đến enrichment analysis thôi, chứ thực ra không rõ bạn đang nói đến phương pháp nào. Mình đọc từ phía tin học (information theory) nên có thể review hơi thiên vị cho các phương pháp bên đó, đặc biệt là các phương pháp semantic information theory. Tiêu biểu có Resnik, Schlicker, Jiang, Lin, Wang. Bạn có thể xem thêm về package GOSemSim viết cho R (http://www.bioconductor.org/packages/2.12/bioc/manuals/GOSemSim/man/GOSemSim.pdf), trong đó có chỉ dẫn đến các bài gốc. Mình có thời gian dùng phương pháp Wang...


Bạn có thể xem thêm bài này, trong đó giải thích khá dễ hiểu về GO cùng với ba phương pháp đo semantic similarity. (Mình k load được, bạn nhờ ai đó load hộ vậy).
http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=1393927&url=http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1393927
 
Last edited:

Similar threads

Facebook

Top