DISS. ETH NO. 23914 A compressed DNA program for digital identification of cancer specific microRNA profile A thesis submitted to attain the degree of DOCTOR OF SCIENCES of ETH ZURICH (Dr. sc. ETH Zurich) presented by Nicolas Lapique MSc in Genomics and Experimental Biology, University of Lausanne born on 7th May 1982 citizen of Jorat-Menthue, VD Accepted on the recomandation of Prof. Yaakov Benenson (ETH Zurich) Prof. Frank Buchholz (TU Dresden) Prof. Sai. Reddy (ETH Zurich) 2016 Abstract The identification and programmed death of cancer cells, using a genetic circuit, have been successfully achieved in cell culture within our research group, shortly before I started my thesis. This gene circuit can analyse a combination of six microRNAs that acts as a cancer signature. When the circuit meets the correct level of expression of each microRNA, it produces a killing protein that destroys the cancer cell. Based on these promising results, an ambitious project has been undertaken to develop an efficient therapeutic method against cancerous tumours with minimal side effects. There is a very long list of technical specifications and biological complications that needs to be addressed before moving toward the pre-clinical phase. In my thesis, I have specifically focused on two challenges, namely, minimising the false positive rate to improve the safety of the system, and reducing the size of the circuit to fit into efficient gene therapy vehicles. Although the cell identification performed by the original gene circuit was overall excellent, the reliability of the system was compromised by some persistent mistakes. Hence, some cancer cells were not identified as such, and some healthy cells were killed by the circuit. The gene circuit is designed to identify more reliably the cancer cells and to decrease the side effects, therefore, the false positive identification was a priority issue to address. To understand what causes the mistakes of computation, the dynamic of the circuit performance was analysed from the delivery of the DNA program until the expression of all circuit components has reached the steady state. The analysis of the dynamic revealed that almost every time a healthy microRNA profile was incorrectly identified as cancerous, this was immediately after the delivery while the circuit is still assembling. Then, it has been demonstrated that in some cells the regulatory mechanism is delayed, resulting in uncontrolled expression of the output. To solve this problem, a site specific recombinase was employed to engineer a mechanism that withholds the output until the other components, which control the output, are fully functioning and optimally connected. The timing of desynchronization between the output and the controllers can be entirely programmed to work in an autonomous fashion inside the cells. This innovation resulted in striking effects on circuit performance, enabling the elimination of circuit’s leakage in the presence of a not-cancerous microRNA profile. With a dynamic range of up to 2000-fold, the performance of the circuit can be considered as digital, which is a vast improvement over previously published data computed with endogenous inputs. i Before even initiating the first mice experiments, the circuit needs to fit a vehicle that can bring it to the majority of the cancer cells, which are spread throughout the organism. Many of the efficient vectors in gene therapy have a cargo capacity lower than the actual DNA size of the microRNA classifier. Moreover the redundancy of this circuit is a major issue, since repetitive regions would recombine and prevent the production of viral particles. A strategy was designed to eliminate the redundancy of the circuit and consequently reduces its size. Using the same recombinase as in the leakage-free system described in the above paragraph, the circuit genome can be compressed enough to fit to a dual AAV system or a recombinant adenovirus. The genetic program can then be autonomously decompressed in situ and perform the identification of the microRNA profile as efficiently as the source circuit. Even more importantly, this work is probably the firstof-this-kind to show that a compressed DNA program can be decompressed in a cell, similar to a conventional computing program. I believe that the DNA compression and decompression concept creates a new bridge between biology and information theory, which could stimulate scientific thought and creativity in the theoretical, as well as in the applied fields. ii Résumé L’identification et la destruction des cellules cancéreuses à l’aide d’un circuit génétique avaient été accomplies en cultures cellulaires au sein de notre groupe de recherche, peu avant le début de mon doctorat. Ce circuit génétique pouvait intégrer un signal composé d’une demi-douzaine de molécules de type microARNs, caractéristique d’une signature cancéreuse. Le circuit était ainsi programmé pour tuer uniquement les cellules qui présentaient cette combinaison spécifique de six marqueurs microARNs. C’est à partir de ces résultats prometteurs qu’un ambitieux projet a été entrepris afin de développer un traitement efficace contre le cancer. Le circuit pouvant être programmé pour reconnaître une très grande variété de profiles moléculaires, il pourrait cibler très spécifiquement n’importe quel type de cellules cancéreuses, ce qui limiterait les effets secondaires du traitement. Cette technologie étant très récente, la feuille de route qui doit conduire à la phase d’essai pré-clinique est encore très longue. Durant ma thèse je me suis consacré à deux défis particuliers, à savoir, limiter le taux de faux positifs afin de rendre le système plus sûr et réduire la taille du circuit pour pouvoir le rendre transportable par des vecteurs de thérapie génique. L’identification et la destruction des cellules cancéreuses par le circuit génétique publié avant le début de ma thèse étaient dans l’ensemble très spécifiques. Néanmoins, dans certaines cellules le profile moléculaire n’était pas analysé correctement. Ainsi, il arrivait que certaines cellules cancéreuses étaient identifiées comme saines et inversement certaines cellules saines étaient détruites par le circuit. Le circuit a été développé dans le but de réduire les effets secondaires, ainsi la diminution du taux de faux positifs était prioritaire. Afin de comprendre ce qui causait les erreurs d’identification, la réponse du circuit a été analysée du début de son expression dans la cellule jusqu’à ce que tous les composants y soient à l’état d’équilibre. L’étude de la dynamique de production a révélé que la majorité des erreurs se produisaient lors de l’assemblage du circuit, immédiatement après son transport dans la cellule. Il a ainsi été démontré que dans certaines cellules le mécanisme de régulation n’est pas produit suffisamment rapidement, ce qui crée un décalage pendant lequel la réponse du circuit est incontrôlée. Afin de résoudre ce problème, un dispositif de retardement de la molécule réponse a été conçu à l’aide d’une enzyme de recombinaison. Le mécanisme permet de différer la production de la molécule réponse, qui sera alors relâché uniquement quand tous les composants nécessaires au bon fonctionnement du circuit seront présents en quantité suffisante. Le timing de désynchronisation iii entre la molécule réponse et les autres composants du circuit peut être programmé pour fonctionner de manière autonome dans la cellule. Cette innovation conceptuelle a permis une amélioration radicale des performances du circuit, éliminant tous les faux positifs dans les cellules qui ne présentent pas de profile moléculaire de type cancéreux. Avec une gamme dynamique d’environ 2000 fois, le circuit est à pésent capable de produire un signal réponse de type numérique. Avant de commencer les premières expérimentations animales, le circuit doit pouvoir être contenu dans un vecteur, lequel pourra le transporter dans la majorité des cellules cancéreuses dispersées dans tout l’organisme. La plupart des vecteurs utilisés en thérapie génique ont une capacité de transport de l’ADN inférieur au ‘génome’ du circuit utilisé pour classifier les profiles microARNs. De plus, la redondance du code génétique du circuit est un obstacle majeur à la production des vecteurs viraux, car les éléments répétés vont se recombiner entre eux. Un mécanisme de compression a été conçu pour éliminer la redondance du circuit, et par conséquent en réduire sa taille. À l’aide d’une recombinase identique à celle utilisée dans le mécanisme d’élimination des faux-positifs, le ‘génome’ du circuit peut être compressé suffisamment pour être contenu dans un système à double AAV ou un adénovirus recombinant. Le programme génétique peut être décompressé de manière autonome dans la cellule et y analyser le profile microRNA de manière aussi efficace que le circuit non-compressé. Ce travail est sans doute le premier exemple de compression et décompression d’un circuit génétique et crée ainsi de nouvelle passerelles entre la biologie et la théorie de l’information. iv