.dsy:it. - [PROGETTO] "Ingegneria genetica"

Pages (5): « 1 [2] 3 4 5 »
Show 150 posts per page

.dsy:it. (http://www.dsy.it/forum/)
- Algoritmi e strutture dati (http://www.dsy.it/forum/forumdisplay.php?forumid=207)
-- [PROGETTO] "Ingegneria genetica" (http://www.dsy.it/forum/showthread.php?threadid=26418)

Posted by Nertila on 05-07-2006 16:52:

un genoma è un insieme di geni che appartengono al insieme base e che si trovano nel codice genetico. questi geni non si devono sovrapporrere e uno deve precedere l'altro.
il genoma ha lungh. max il max. nr. di geni che troviamo nel codice con queste propietà.

Posted by maynard80 on 05-07-2006 17:30:

Originally posted by Nertila
un genoma è un insieme di geni che appartengono al insieme base e che si trovano nel codice genetico. questi geni non si devono sovrapporrere e uno deve precedere l'altro.
il genoma ha lungh. max il max. nr. di geni che troviamo nel codice con queste propietà.

ehm... si è palese.... ehm...... beh ok, forse a qualcuno potrebbe servire riassumere in maniera semplificata le richieste del progetto... no così... è solo un'idea.

:roll:

__________________
msn Messenger: giamma80 at tiscali.it
ATHENA !

Posted by logan.x on 05-07-2006 22:27:

Originally posted by maynard80
ehm... si è palese.... ehm...... beh ok, forse a qualcuno potrebbe servire riassumere in maniera semplificata le richieste del progetto... no così... è solo un'idea.

Questo e' quello che ho capito io:
i geni sono composti da una stringa finita di caratteri e sono raggruppati in una base s.
la concatenazione di piu' geni (basati sulla base s) compone il codice genetico.

dato un codice genetico individuare la sequenza di geni che la compone (genoma).
dato che ci sono piu' combinazioni possibili di genoma, bisogna prendere quella con il maggior numeri di geni facendo attenzione che i geni non si sovrappongano. inoltre se un gene compare piu' volte, bisogna prendere la prima occorrenza.

identificato il genoma creare la proteina la quale ha un costo di attivazione e un costo di passaggio. questi costi sono da calcolare sulla base di piu' istanze di codice genetico. il costo di attivazione varia a parita' di gene tra un'istanza e l'altra e il costo di passaggio e' il costo del "salto" tra un'istanza e l'altra. trovare la sequenza minima a livello di costi che compone la proteina.

lo so, spiegarlo in parole "umane" e' difficile. io ho impiegato 2 giorni a capirlo, pero' che volete farci... sono un mutante!! :shock:

delucidazioni migliori della mia sono ben accette (sempre che io abbia capito bene).

Posted by Petrik22 on 06-07-2006 09:50:

ragazzi ma c'è qualcuno disposto a beccarsi in silab per buttare giù le basi di sto progetto???
almeno capire cosa fare e come, poi ovviamente il codice definitivo lo si deve scrivere individualmente...
se qualcuno è interessato mi faccia sapere!!!

Posted by maynard80 on 06-07-2006 10:41:

Originally posted by Petrik22
ragazzi ma c'è qualcuno disposto a beccarsi in silab per buttare giù le basi di sto progetto???
almeno capire cosa fare e come, poi ovviamente il codice definitivo lo si deve scrivere individualmente...
se qualcuno è interessato mi faccia sapere!!!

ma io ci sto, se riusciamo a fare un gruppo non è male

__________________
msn Messenger: giamma80 at tiscali.it
ATHENA !

Posted by Petrik22 on 06-07-2006 15:29:

okey io sono disponibile per settimana prox quando volete, intanto sto lavorando così possiamo confrontare un po' ciò che abbiamo già fatto...
se qualcuno si vuole unire è strabenvenuto!!!

__________________
lol

Posted by Bibendus on 08-07-2006 11:45:

Ma una cosa non ho capito... il costo per produrre la proteina e' indipendente dalla composizione del genoma?
Cioe alla fine calcoliamo i costi solo in base ad una matrice no? L'unica cosa che lega il calcolo dell'energia al genoma è la lunghezza stessa del genoma, giusto?

Posted by maynard80 on 08-07-2006 12:36:

ragazzi qualcuno ha idee? io ci sto impazzendo dietro

__________________
msn Messenger: giamma80 at tiscali.it
ATHENA !

Posted by logan.x on 10-07-2006 11:14:

Originally posted by maynard80
ragazzi qualcuno ha idee? io ci sto impazzendo dietro

Devo dire che e' stata molto dura capire il testo.
Per me ci sono 3 algoritmi da individuare:

1) dato il codice genetico, individuare i geni contenuti nel codice, se un gene appare piu' volte, prendere SOLO la prima occorrenza. (String matching) Facile.

2) individuati i geni (punto 1), costruire la sequenza di geni piu' lunga possibile facendo attenzione alla sovrapposizione degli stessi. (algo sul libro) Facile. Qui fate attenzione, sul testo c'e' scritto che possono esserci piu' di un genoma compatibile e che puo' essere una sequenza vuota.

3) individuato il genoma (punto 2), costruire la proteina:
vengono date n istanza del codice genetico. Prendere i geni del genoma tra le n istanze di "t" minimizzando i costi di attivazione e (eventualmente) di passaggio (algo sul libro, quello consigliato) Difficile

Individuati i punti 1-2-3, capire quale sia la migliore struttura dati.
Io uso una lista doppiamente linkata ma devo capire ancora se va bene per il punto 3.
Per la stampa dei genomi con prefisso "alfa", vedo se riesco a riciclare la procedura del punto 1.
Bye.

Originally posted by maynard80
Ma una cosa non ho capito... il costo per produrre la proteina e' indipendente dalla composizione del genoma?
Cioe alla fine calcoliamo i costi solo in base ad una matrice no? L'unica cosa che lega il calcolo dell'energia al genoma è la lunghezza stessa del genoma, giusto?

istanza t1: GATTACATTAGAGCGCCCCAAATATAT
istanza t2: GATTACATTAGAGCGCCCCAAATATAT

ovviamente le istanze di t possono essere n
genoma (siamo gia' al punto 3) per esempio composto da GATTA, TAGA, TATAT

Il calcolo dell'energia, piu' che dipendere dalla lunghezza del genoma, dipende da quale istanza di "t" prendi il gene. Ovviamente non puoi provare tutte le possibili combinazioni, altrimenti l'algoritmo ha un costo proibitivo. Sembra quasi.... ehm.... una catena di montaggio....

Posted by longgoneday on 10-07-2006 11:43:

Originally posted by logan.x

2) individuati i geni (punto 1), costruire la sequenza di geni piu' lunga possibile facendo attenzione alla sovrapposizione degli stessi. (algo sul libro) Facile. Qui fate attenzione, sul testo c'e' scritto che possono esserci piu' di un genoma compatibile e che puo' essere una sequenza vuota.

3) individuato il genoma (punto 2), costruire la proteina:
vengono date n istanza del codice genetico. Prendere i geni del genoma tra le n istanze di "t" minimizzando i costi di attivazione e (eventualmente) di passaggio (algo sul libro, quello consigliato) Difficile

sapresti dirmi a quali algoritmi sul libro ti riferisci esattamente?a che pagina?io ho l'edizione vecchia e non so se ci sono...
graziemille

Posted by MarcoAnselmo on 10-07-2006 15:21:

Io non ho alcun libro, logan.x non è che puoi mettere nell'area filez le scansioni delle pagine interessate?

Anche perché così a occhio senza un testo da cui prendere spunto non sembra così facile...

Io un'ipotesi su come fare la funzione genoma ce l'ho, ma è piuttosto complicata. Appena ho un po' di tempo la testo e poi la condivido. Per la proteina non mi ci sono ancora messo!

Posted by maynard80 on 10-07-2006 15:59:

per il punto uno penso che siano gli algo conosciuti di string-matching(Naìve, Knuth-Morris-Pratt ,Boyer Moore )

per i punti 2 e 3 il vuoto...

__________________
msn Messenger: giamma80 at tiscali.it
ATHENA !

Posted by Bibendus on 10-07-2006 17:25:

Boh sto cercando di capire che algoritmo si potrebbe usare al punto 2.
Abbiamo una serie di intervalli (posizione prima lettera, posizione ultima lettera) per cui i geni sono stati individuati nel codice genetico, bisogna fare in modo di trovare piu intervalli possibili che non si sovrappongano.

Provo a spararla... credo che centri qualcosa con le code di priorità, abbiamo un tempo di inizio (posizione prima lettera) e un tempo di lavoro (lunghezza della stringa) e dobbiamo fare in modo di eseguire piu processi possibili (occorrenza di piu geni che non si sovrappongono)
Che ne pensate?

Per la terza parte... boh non ho capito come facciamo ad avere un file che contiene gia le istanze a n valori se non sappiamo quanto varrà n, cioè non sappiamo ancora qual'è la lunghezza massima della sequenza di geni compatibile con il codice genetico (fase 2).

Inoltre ripeto, per la fase 3 non mi pare ci interessi quali geni abbiamo trovato ma quanti.
Il costo dell'energia potrebbe sembrare molto ad una catena di montaggio però non ne sono tanto sicuro.
Abbiamo un costo di produzione sulle singole istanze e il costo per spostarsi da un istanza all'altra.
Provo a leggermi un po l'esempio sul libro (sezione programmazione dinamica)

Posted by Bibendus on 11-07-2006 00:04:

Ok confermo che per la terza fase si tratta sicuramente di programmazione dinamica, l'esempio della catena di montaggio calza a pennello.

Posted by logan.x on 11-07-2006 13:40:

Originally posted by Bibendus
Provo a spararla... credo che centri qualcosa con le code di priorità, abbiamo un tempo di inizio (posizione prima lettera) e un tempo di lavoro (lunghezza della stringa) e dobbiamo fare in modo di eseguire piu processi possibili (occorrenza di piu geni che non si sovrappongono)
Che ne pensate?

Secondo me non ti serve nessuna coda di priorita'.
Potrebbe andar bene un algo greedy.
Immaginiamo che i geni siano dei processi con un tempo di inizio e uno di fine da eseguire su un monoprocessore. Se li ordiniamo in base al tempo di fine e poi ci ragioniamo un po' su... la sequenza viene fuori in un attimo.

Originally posted by Bibendus
Per la terza parte... boh non ho capito come facciamo ad avere un file che contiene gia le istanze a n valori se non sappiamo quanto varrà n, cioè non sappiamo ancora qual'è la lunghezza massima della sequenza di geni compatibile con il codice genetico (fase 2).

In effetti, questo passo e' complicato.
A mio avviso:
a) la funzione genoma, per ogni gene inserito nella base ne trova la prima occorrenza nel codice genetico. Alla fine, restituisce la massima sequenza compatibile con le regole del progetto (quindi sai quanto e' lunga).
b) la funzione proteina, prima lancia genoma, poi in base ai valori di r e c contenuti nel file f.txt, crea r istanze del codice genetico e a quel punto devi calcolare il costo della proteina. Guarda il mio ultimo post.
Supponi che r sia = 2. Prendi GATTA e TAGA dalla 1° istanza mentre TATAT della 2° istanza. Il totale e' per esempio 34.
Invece se prendi GATTA dalla 1° istanza mentre TAGA e TATAT della 2° istanza il totale e' 29. Questa e' la sequenza migliore.
Tieni presente che non devi ricercare il gene nell'istanza, sai gia' le posizioni. Come si fa? La risposta concettuale e' nell'ultima riga del mio precedente post.

P.s. Ah, fate attenzione. Bisogna gestire il caso che il genoma sia costituito dalla sequenza vuota (= no geni)!!

All times are GMT. The time now is 20:18.

Pages (5): « 1 [2] 3 4 5 »
Show all 71 posts from this thread on one page