ゲノコン2021 ー DNA配列解析チャレンジ

参加対象: All Rated対象: - ペナルティ: なし

Topics

  • 2022/4/15 : 情報処理学会会誌にてコンテストのまとめ記事が発行されました.こちらからお読みいただけます
  • 2021/10/1 : 表彰式の録画を配信します.配信はこちらから2021年10月15日までの公開となります.
  • 2021/9/29 : アンケート結果(個別コメントは除く)を公開しました.
  • 2021/9/29 : 受賞者を掲載しました.
  • 2021/9/29 : 最終順位が公表されました.
  • 2021/9/23 : 表彰式にてご講演頂く入賞者が決まりました.講演者以外の入賞者への連絡はもう少しお待ちくださいませ.
  • 2021/9/23 : 最終順位は表彰式において発表後,本サイトにて掲載予定です.
  • 2021/9/22 : 表彰式にぜひご参加ください!表彰式への参加登録をお願いします.表彰式概要もご覧頂けます.
  • 2021/9/22 : アンケートへの回答にご協力頂けると嬉しいです.
  • 2021/9/22 : 入賞者への連絡について,「賞」の項目に追記しました.
  • 2021/9/12 : D問題に関しまして,Dockerによる手元ジャッジ環境を準備しました.こちら(GitHub)よりダウンロードできます.手元でのジャッジの他,入力のパース,非常に基本的な解を出力するプログラムも含まれております.
  • 2021/9/12 : D問題に関しまして,BAM形式のビューア―の使い方を記載した資料を準備しました.こちらからダウンロード頂けます.
  • 2021/9/12 : src_genocon2021.tar.gzに含まれるeval.cについて,windows環境での出力に対応する修正を加えました.
  • 2021/9/11 : D問題の言及ルールを変更しました.
  • 2021/9/11 : D問題に関しまして,問題文にも記載がありますが,手元でジャッジできるプログラム,及び,入力形式をマルチプルアラインメントに変換するプログラムをこちらで配布しております.制限時間が長いため,お手元でのデバッグ等にお役立てください.実データのサンプルが含まれますため,ダウンロードの際には,問題文記載のIDとパスワードの入力が必要です.
  • 2021/9/11 : 配布データに関するお知らせを追加しました.
  • 2021/9/9 : D問題を開示しました.
  • 2021/8/28 : D問題の開示日程が変更となりました.(MLでのご連絡) 新たなスケジュールはML,及び,本ページにて連絡致します.D問題の開示にかかわらず,提出時間の間隔は,8/28 21:00以降は2時間となります.
  • 2021/8/25 : C問題を追加しました.
  • 2021/8/24 : B問題を追加しました.
  • 2021/8/23 : コンテストを開始しました。twitterハッシュタグは #genocon2021 をお使いください!
  • 2021/8/23 : 本問題に使用するデータについて追記しました。Oxford Nanopore Technologies社の全面協力のもと、最新のケミストリQ20 kitを用いて読み出したデータとなります!(なお,今回の使用するデータは開発中の最新キットQ20を用いておりますが,Q20の開発は続けられており,今回のデータが製品版となるQ20の性能を示すものではないことをご了承ください.9/9 追記)
  • 2021/8/23 : 提出時間の間隔について追記しました.
  • 2021/8/21 : コンテストサイトを公開しました.(AtCoderでの公開以前のサイトはこちらになります.)

コンテスト概要

  • DNA配列解析を題材としたマラソン型のコンテストです.
  • 2021年度の日本バイオインフォマティクス学会年会の一般公開セッションにおいて本コンテストの結果発表,及び入賞者講演を実施します.
  • 先端生命科学の現場で行われている解析の中から,プログラミングやアルゴリズムの問題として十分楽しめるものを出題します.
  • 本問題では最新のゲノムシークエンサーを用いて読み出したヒトDNA配列の実データを用います.
    • こちらはOxford Nanopore Technologies社のシークエンサーによるもので,最新ケミストリを用いて読みだされたデータとなります.
  • 腕に覚えのある人々が競い合うことにより,最先端の解析手法を上回る答案が生み出されることを期待しています.
  • 参加者が集うメーリングリストはこちらになります.運営からのお知らせはこのメーリングリストにて配信します.
  • このコンテストはゲノコン実行委員会によって運営・作問が行われているコンテストです.AtCoder社は一切責任を負いません.

ルール

  • どなたでも参加できます.このページのトップに「参加登録」が表示されましたら,参加登録をしてください.コンテスト終了日まで参加登録可能です.
  • 三問の練習問題(A, B, C)と一問の本問題(D)から構成され,以下のスケジュールにて実施します.
    • 練習問題解答期間:2021年8月23日 ~ 2021年9月20日
      • 本問題に先んじて,A,B,Cの順に時間差で開示されます.
    • 本問題解答期間:2021年8月28日 ~ 2021年9月20日
  • 未開示の問題のタイトルと問題文には開示予定の日付が記載されます.開示の日まではプログラムを提出しないでください.
  • プログラム提出の回数制限はありません.ただし,各問題につき最後の提出から一定時間経過しないと次の提出をすることができません.提出時間の間隔は,8/28 21:00までは10分,8/28 21:00以降は2時間となります.
  • 順位は,全ての問題の得点の総和により決定されます.同点の場合は,順位表に反映された答案の提出時間が早い方を上位とします.
  • 当該コンテストでは,関連分野について知見を持つ参加者とそうでない参加者が,できるだけ公平に競えるようにしたいとの考えから,ゲノム配列の扱いに慣れて頂くための練習問題を用意しました.運営側は,多くの方々に練習問題の解法を見出して頂くことを望んでいます.従いまして,練習問題を解く過程においては,SNS等を通じて参加者間で解法に関して相談して頂いて構いません.一方で,本問題は一般的なプログラミングコンテストと同様に,参加者間で解法に関して相談をすることを禁止します. D問題に関しては,(1)解法に関してSNS等で言及可,(2)解法に関するソースコードの公開は不可,(3) ただし,解法開発を補助するソースコード/ソフトの公開は可.例えば,既に運営が配布しているdecode_cigar.py(入力のパース)を別のプログラミング言語で実装したソースコードや,入力の可視化ツールなどが該当.のようにルールを定めます.(9/11 変更)

配布データに関する重要なお知らせ

D問題では,Oxford Nanopore Technologies社より提供された実データを用いております.プログラムの開発に役立てて頂くため,D問題文中のリンクより,その一部がダウンロードできるようになっております.コンテスト期間中はぜひご活用くださいませ. 一方で,今回のデータはコンテスト以外での利用が認められておりませんので,コンテスト終了後は速やかにお手元の環境からデータを削除してくださるようお願い申し上げます.また,コンテスト期間中であっても,コンテスト以外の目的での利用や再配布は固く禁じます.

配点

  • A問題 : 100点
  • B問題 : 500点
  • C問題 : 最大4500 6000点
  • D問題 : 最大約30000点

成績は全ての問題の総得点で決定されます.

以下の賞を用意しています.

  • 成績上位の賞
    • 1位 (Amazonギフト券3万円を授与)
    • 2位 (Amazonギフト券2万円を授与)
    • 3位 (Amazonギフト券1万円を授与)
  • 審査員特別賞
    • 審査員の選んだ参加者にAmazonギフト券5000円を授与します.
  • 参照ゲノム賞
    • 参照ゲノム配列の最新バージョンに因み,38位の参加者にAmazonギフト券3800円を授与します.
  • C問題賞
    • C問題の得点が最も高かった参加者にC問題の得点と同額のAmazonギフト券(最大4500 6000円)を授与します.問題に記載の通り,最終順位は別のデータセットを用いて最終提出にて評価されます.同点の場合は,最終提出の答案の提出時間が早い参加者が受賞します.
  • 各賞受賞者(9/29 追記)
    • 1位 terry_u
    • 2位 odat
    • 3位 daiwakun
    • 参照ゲノム賞 Koki_tkg
    • 審査員特別賞 threecourse, googol_S0
    • C問題賞 square1001

【入賞者への連絡(9/22 追記)】 入賞者には参加登録の際にご記入頂いたメールアドレス宛てにご連絡致します. メールを受信されましたら,受賞に同意頂ける旨をご返信ください.指定の期日内に返信メールを頂けない場合は,やむを得ず受賞を取り消しとさせて頂きます.

その他

  • AtCoder Regular Contestに準じたプログラミング言語を使用できます.
  • AtCoder社の利用規約,チュートリアル,ルール,用語集,よくある質問をお読みください.
  • 未成年の参加者は,賞金/賞品の受け取りについて保護者の同意が必要となります.



開催趣旨

最先端の医学はデータ解析

DNAが担う遺伝情報は4種の文字から構成される文字列(塩基配列)で記述することができます.つまり,塩基配列は“生命の設計図”そのものです.近年,DNAから塩基配列を読み出すコストが劇的に下がり,膨大なデータが生み出されています.ヒトの設計図であれば30億文字,文庫本にして約3万冊の分量がありますが,数千人,数万人規模で塩基配列を収集する研究も稀ではありません.これら塩基配列を詳細に分析することにより,様々な生命現象を解き明かす手がかりを得られます.例えば,ガンをはじめとする様々な疾患の原因遺伝子は大量の塩基配列の詳細な比較により発見することができます.

アルゴリズムが病気の原因を解明

今,生命科学で強く求められているのは,膨大な塩基配列データを超高速,超精密に分析することのできる革新的なアルゴリズムです.塩基配列は一般に馴染みのあるデータには見えないかもしれませんが,分析に必要とされるのはパターンの発見や比較など,自然言語の解析と同様の(でも少し異なる特徴も持つ)文字列処理です.現在,最も重要な塩基配列解析の手法は,プログラミングコンテストでもお馴染みの接尾辞木/配列に基づくものであり,最先端のアルゴリズムが病気の原因を解明しているといっても過言ではありません.

相手は文字列だ.恐れるに足らず.

塩基配列の解析で解くべき問題は,アルゴリズムに工夫のし甲斐があるものばかりです.本コンテストでは,解析の現場で扱われている問題を出題しますが,生命科学の非専門家が問題を理解できるように注意深く翻訳します.参加者は生命科学への敷居の高さを感じることはないでしょう.運営・企画側は,分野外の人が塩基配列解析を楽しんで頂けることを望んでいます.また,様々なアルゴリズムを自在に操る優秀な人材がこの分野に興味を持ってくれることを期待しています.あなたの答案が生命科学を発展させるかもしれません.多くの方の参加をお待ちしています.

後援/協賛

Topics

  • 2021/8/28 : The release of Problem D will be delayed. We will announce the new release date soon.
  • 2021/8/24 : Problem B has been released.
  • 2021/8/23 : Please use #genocon2021 for the twitter hashtag.
  • 2021/8/21 : The contest site opened.

Overview

  • This is a heuristic competition focusing on DNA sequence analysis.
  • The competition winner will be invited as a speaker at the 2021 annual conference of Japanese Society of Bioinformatics workshop.
  • Whilst many problems are addressed in current life science research, we will be looking one very interesting area – the problem of algorithms.
  • We will use actual human genome sequence data.
    • The data being used has been produced by an Oxford Nanopore Technologies sequencer and was sequenced by using the latest chemistry — the Q20 kit.
    • Please note that the data used in this event is based on the latest Oxford Nanopore Q20 kit, however which is still under development, and that this data does not represent the performance of the full version of Q20.
  • We hope your algorithm will outperform the state-of-the-art analysis method.
  • You can join the google group for participants here.
  • This competition is organized by Genocon 2021 comittee, and AtCoder is not responsible for any problems with the competition or its organization.

Regulation

  • Anyone can particpate in this competition. The registration link will appear at the top of this page soon.
  • The competition consists of three practice problems (A, B, C) and the main problem (D)
    • The practice problems will be published before the main problem. - they will be released individually from August 23.
    • The main problem will be released on August 28.
  • Please do not submit your work until after the problem has been released.
  • There is no limit to the number of submissions you can make, but you cannot make a new submission within 10 minutes (before August 28 21:00PM (JST) )/two hours (after August 28 21:00PM (JST) ) of the previous one for each problem.
  • The ranking is determined by the sum of scores. If multiple participants achieve the same score, the person who got that score first, will be ranked highest. We have prepared practice problems to ensure that non-expert participants can compete with participants with a bioinformatics background. Therefore, we encourage the participants to discuss the practice problems in various ways, such as SNS. However, participants are not permitted to share solutions for the main problem. For the main problem, the participants can discuss the solusion for the problem D, however, they must not share the source code except for the one that can be used for pursing the input (such as we already distributed as decode_cigar.py) or visualzing the input. (Revised on September 11.)

Score

  • A (practice): 100 points
  • B (practice): 500 points
  • C (practice): 4500 6000 points at the maximum
  • D (main): Around 30000 points at the maximum

The ranking is determined by the sum of all scores.

Awards

  • The ranking award
    • 1st place (An amazon gift card 30000 JPY)
    • 2nd place (An amazon gift card 20000 JPY)
    • 3rd place (An amazon gift card 10000 JPY)
  • Committee award (An amazon gift card 5000 JPY)
    • The committee will select the participant who submitted the most interesting code.
  • Reference genome award
    • 38th place (An amazon gift card 3800 JPY)
  • Problem C award (An amazon gift card {earned score for C} JPY)
    • The participant who gets the highest score for C will win this award If multiple participants achieve the same score, the person who got that score first will win this award. The final standings are determined with the last submission of each competitor. We will use the other dataset that was generated based on the same method used for generating the current dataset.

Others

  • Participants can use any programming language used in AtCoder Regular Contest.
  • Please carefully read AtCoder's regulation.
  • Participants under 18 years old must gain parental consent in order to receive an award.


Sponsorship/Cooperation