-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Hirokazu Chiba edited this page Jun 14, 2024
·
110 revisions
新しいネームスペース
- GitHub Pagesで公開
- purl.jpを使って転送するか? (302)
Other candidate properties
- insdc:
insdc:old_locus_tag
-
taxid:9606
ヒト -
taxid:10090
マウス -
taxid:7955
ゼブラフィッシュ -
taxid:7227
ハエ -
taxid:6239
線虫 -
taxid:559292
出芽酵母 -
taxid:3702
シロイヌナズナ
-
taxid:10116
ラット -
taxid:4896
分裂酵母 -
taxid:511145
大腸菌 -
taxid:39947
イネ -
taxid:31033
トラフグ - 枯草菌
- シアノバクテリア
-
taxid:9598
チンパンジー -
taxid:8090
メダカ -
taxid:70091
カイコ -
taxid:4577
トウモロコシ -
taxid:3847
ダイズ -
taxid:7460
セイヨウミツバチ - ピロリ菌
- 放線菌
- マイコバクテリウム
- マグロ
GG => ヒト、(チンプ)、マウス、(ラット)、線虫、ハエ
- ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz
-
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/All_Data.gene_info.gz も同じ.
- 両者のファイルサイズが違うように見えるが、解凍すると同じになる。
毎日更新されている
- 日本時間の10-13時くらい(午後にファイル見ると、新しくなっているはず)
- All_Data.gene_info の内容も同じだが、タイムスタンプが (4分くらい) 遅い
- Homo_sapiens.gene_info のタイムスタンプは、さらに (1分半くらい) 遅い
- ダウンロードに1分(1GB)、gzの解凍に0.5分(6GB)、Turtleへの変換に6.7分 (4.2億トリプル 15GB)、Virtuosoへのロードに20.5分
- 全部で小一時間もあればデータ更新できるはず
正しくパースするためには、各カラムに出現する特殊文字を把握する必要がある。
$ ct gene_info.2023-05-30.special_chars
decimal - | ; \ ' " "' count in each field
45186351 0 0 0 0 0 0 0 [0] tax_id
45186351 0 0 0 0 0 0 0 [1] GeneID
115240 0 1 609 3 298 0 0 [2] Symbol
0 25548826 0 0 0 3 0 0 [3] LocusTag
351 37676590 428272 411 19071 591 0 0 [4] Synonyms
0 37134805 439202 0 0 0 0 0 [5] dbXrefs
15015967 8736400 1236 21 0 0 0 0 [6] chromosome
9 44979383 71784 106 0 0 0 0 [7] map_location
51 7522 172 18268 27 173931 57 1 [8] description
0 0 0 0 0 0 0 0 [9] type_of_gene
0 44805516 0 356 0 1 0 0 [10] Symbol_from_nomenclature_authority
7 44813423 0 99 0 859 0 0 [11] Full_name_from_nomenclature_authority
0 44805516 0 0 0 0 0 0 [12] Nomenclature_status
33 11256592 2594393 9688 128531 185546 2 0 [13] Other_designations
45186351 0 0 0 0 0 0 0 [14] Modification_date
0 45055552 5924 0 0 0 0 0 [15] Feature_type
45186351 genes in total
- chromosome, map については、複数の可能性がある? どういう生物か?
- 複数あるなら、分解して、各々を目的語としてぶら下げないといけない.
- パターンがいろいろある. とりあえず分解せずそのままでもいいのではないか.
(わりと速い)Perlでも、パースにはけっこう時間がかかる.
- 10万行なら1秒かからないが
- 数千万行あるので分単位でかかる
2022-09-30
- 解凍後 5.3GB
- 39,972,773 行 (約4千万行)
- 各行が, ユニークな1遺伝子に対応 (ヘッダー行1行あり)
- 16カラムからなる (計 100-200文字くらい)
- ちなみに第1カラムのtax_idに対して以下のようなフィルターをかけると, Homo_sapiens.gene_info と全く同じになる.
- 9606 (ヒト)
- 63221 (ネアンデルタール人)
- 741158 (デニソワ人)
2022-09-30
- 解凍後 17MB
- 81,492 行
- 9606 (ヒト) : 81,418 行
- 63221 (ネアンデルタール人) : 37 行
- 741158 (デニソワ人) : 36 行
/locus_tag qualifier の記載法(DDBJ)
- 2005年以降、locus_tagの形式がfixされた.
- locus_tag prefix は3-12文字の英数字 (最初の1文字目は英字).
- 一般的に, ゲノム上での出現順序になると期待されるが, 更新などによって乱れることもあり得る.
stack smashing detected