Skip to content
Hirokazu Chiba edited this page Jun 14, 2024 · 110 revisions

新しいネームスペース

Other candidate properties

  • insdc:
    • insdc:old_locus_tag

代表的な生物種

リファレンスゲノム

  • taxid:9606 ヒト
  • taxid:10090 マウス
  • taxid:7955 ゼブラフィッシュ
  • taxid:7227 ハエ
  • taxid:6239 線虫
  • taxid:559292 出芽酵母
  • taxid:3702 シロイヌナズナ

モデル生物

  • taxid:10116 ラット
  • taxid:4896 分裂酵母
  • taxid:511145 大腸菌
  • taxid:39947 イネ
  • taxid:31033 トラフグ
  • 枯草菌
  • シアノバクテリア

準モデル生物

  • taxid:9598 チンパンジー
  • taxid:8090 メダカ
  • taxid:70091 カイコ
  • taxid:4577 トウモロコシ
  • taxid:3847 ダイズ
  • taxid:7460 セイヨウミツバチ
  • ピロリ菌
  • 放線菌
  • マイコバクテリウム

非モデル生物

  • マグロ

GG => ヒト、(チンプ)、マウス、(ラット)、線虫、ハエ

gene_info

毎日更新されている

  • 日本時間の10-13時くらい(午後にファイル見ると、新しくなっているはず)
    • All_Data.gene_info の内容も同じだが、タイムスタンプが (4分くらい) 遅い
    • Homo_sapiens.gene_info のタイムスタンプは、さらに (1分半くらい) 遅い
  • ダウンロードに1分(1GB)、gzの解凍に0.5分(6GB)、Turtleへの変換に6.7分 (4.2億トリプル 15GB)、Virtuosoへのロードに20.5分
    • 全部で小一時間もあればデータ更新できるはず

正しくパースするためには、各カラムに出現する特殊文字を把握する必要がある。

$ ct gene_info.2023-05-30.special_chars
decimal   -         |        ;      \       '       "   "'  count in each field
45186351  0         0        0      0       0       0   0   [0] tax_id
45186351  0         0        0      0       0       0   0   [1] GeneID
115240    0         1        609    3       298     0   0   [2] Symbol
0         25548826  0        0      0       3       0   0   [3] LocusTag
351       37676590  428272   411    19071   591     0   0   [4] Synonyms
0         37134805  439202   0      0       0       0   0   [5] dbXrefs
15015967  8736400   1236     21     0       0       0   0   [6] chromosome
9         44979383  71784    106    0       0       0   0   [7] map_location
51        7522      172      18268  27      173931  57  1   [8] description
0         0         0        0      0       0       0   0   [9] type_of_gene
0         44805516  0        356    0       1       0   0   [10] Symbol_from_nomenclature_authority
7         44813423  0        99     0       859     0   0   [11] Full_name_from_nomenclature_authority
0         44805516  0        0      0       0       0   0   [12] Nomenclature_status
33        11256592  2594393  9688   128531  185546  2   0   [13] Other_designations
45186351  0         0        0      0       0       0   0   [14] Modification_date
0         45055552  5924     0      0       0       0   0   [15] Feature_type
45186351                                                    genes in total
  • chromosome, map については、複数の可能性がある? どういう生物か?
    • 複数あるなら、分解して、各々を目的語としてぶら下げないといけない.
    • パターンがいろいろある. とりあえず分解せずそのままでもいいのではないか.

(わりと速い)Perlでも、パースにはけっこう時間がかかる.

  • 10万行なら1秒かからないが
  • 数千万行あるので分単位でかかる

2022-09-30

  • 解凍後 5.3GB
  • 39,972,773 行 (約4千万行)
  • 各行が, ユニークな1遺伝子に対応 (ヘッダー行1行あり)
    • 16カラムからなる (計 100-200文字くらい)
  • ちなみに第1カラムのtax_idに対して以下のようなフィルターをかけると, Homo_sapiens.gene_info と全く同じになる.
    • 9606 (ヒト)
    • 63221 (ネアンデルタール人)
    • 741158 (デニソワ人)

Homo_sapiens.gene_info

2022-09-30

  • 解凍後 17MB
  • 81,492 行
    • 9606 (ヒト) : 81,418 行
    • 63221 (ネアンデルタール人) : 37 行
    • 741158 (デニソワ人) : 36 行

locus_tagについて

/locus_tag qualifier の記載法(DDBJ)

  • 2005年以降、locus_tagの形式がfixされた.
    • locus_tag prefix は3-12文字の英数字 (最初の1文字目は英字).
    • 一般的に, ゲノム上での出現順序になると期待されるが, 更新などによって乱れることもあり得る.

C言語

  • stack smashing detected