File: testfunction.R

package info (click to toggle)
plasmidseeker 1.0%2Bdfsg-1
links: PTS, VCS
area: main
in suites: buster
size: 232 kB
sloc: perl: 483; sh: 41; makefile: 12
file content (371 lines) | stat: -rw-r--r-- 13,090 bytes
args <- commandArgs(trailingOnly = TRUE)

# Bakteri katvuste tabel
bac_file <- args[1]
plasmid_file <- args[2]
read_length <- as.numeric(args[3])

###################################
# Funktsiooni definitsiooni algus #
###################################

testiPlasmiidi2=function(k1, n1, k2, n2, readi_pikkus){
# Argumendid
# k1 - bakteri katvused
# n1 - mitu bakteri k-meeri oli sellise katvusega
# k2 - plasmiidi katvused 
# n2 - mitu plasmiidi k-meeri oli sellise katvusega
# readi_pikkus - kui pikki lugemeid on kasutatud



# readi_pikkus=100; n1=a1$n; k1=a1$katvus;   n2=a5$n; k2=a5$katvus
# readi_pikkus=100; n1=a1$n; k1=a1$katvus;   n2=a2$n; k2=a2$katvus
# readi_pikkus=100; n1=a1$n; k1=a1$katvus;   n2=a3$n; k2=a3$katvus
# k1=0:400; n1=nnn1; k2=0:400; n2=nnn2; readi_pikkus=100; tricube=TRUE

par_to_p = function(x){
 # 22rmised t6en2osused 0...0.25  keskmine 1..0.5
 p00=0.3*exp(x)/(1+exp(x))
 p=c(p00[1], 1-p00[1]-p00[2], p00[2])
 return(p)
}

p_to_par = function(x){
  x[x==0]=1e-7
  xx=log( 1/0.3* x[c(1,3)] /(1-  (1/0.3) *x[c(1,3)]) )
  return( xx )
}

par_to_kesk=function(x, keskm0=keskm0){
# 0.6*keskm0 ... 1.4*keskm0
# return(0.8*keskm0*exp(x)/(1+exp(x))+0.6*keskm0)
return(exp(x))
}

kesk_to_par=function(x, keskm0=keskm0){
# 0.6*keskm0 ... 1.4*keskm0
# abi=(x-0.6*keskm0)/(0.8*keskm0)
# return( log(abi/(1-abi) ) )
return(log(x))
}

# p_to_par=c(0.2,0.4, 0.2)
# Keskmist t6en2osust ignoreeritakse...
# par_to_p(  p_to_par(c(0.2,0.4, 0.24))  )

ll=function(x, k, n, keskm0=NA, yle=NULL){
#  print ("Funktsioon ll")
#  print (x)
  # pi - 0x 1x 2x 3x esinevate k-meeride osakaalud
  # x=c(1,1, 12, 5); k=a5$katvus; n=a5$n
  # x=c(p_to_par(c(0.05, 0.9, 0.05)), kesk_to_par(12), 5); k=a1$katvus; n=a1$n; yle=20; keskm0=13
  # x=c(p_to_par(c(0.05, 0.9, 0.05)), kesk_to_par(12), 5); k=a5$katvus; n=a5$n; yle=20; keskm0=13
# tul2=optim(c(p_to_par(c(0.05, 0.9, 0.05)), kesk_to_par(keskm00_plasmiid, keskm00) ), ll, k=k2, n=n2, control=list(fnscale=-1), keskm0=keskm00, yle=exp(tul$par[4]) )
  # x=c(p_to_par(c(0.05, 0.9, 0.05)), kesk_to_par(keskm00_plasmiid, keskm00)); k=a5$katvus; n=a5$n; yle=exp(tul$par[4]); keskm0=keskm00



  pi=par_to_p( x[1:2] )
  
  # keskmine katvus
  keskm=par_to_kesk(x[3], keskm0)

  # ylehajuvusparameeter
  if (is.null(yle)) s=exp(x[4]) else s=yle

  if (keskm<=0) return(-Inf) else {
  # yhe vaatluse kontributsioon
#  l1=log(dpois(k, lambda=0.1)*pi[1]+dpois(k, lambda=keskm)*pi[2]+dpois(k, lambda=keskm*2)*pi[3]+dpois(k, lambda=keskm*3)*pi[4])

# Arvutuste t2psuse t6stmine
# ln(a + b) = ln{exp[ln(a) - ln(b)] + 1} + ln(b)

# 1 v6i 0 t6en2osus (Roosaare failides 0-d sageli puudu)
l1_1 =pnbinom(1, mu=0.1, size=s, log=T)+log(pi[1])
l1_2 =pnbinom(1, mu=keskm, size=s, log=T)+log(pi[2])
l1_3 =pnbinom(1, mu=keskm*2, size=s, log=T)+log(pi[3])
# l1_4 =pnbinom(1, mu=keskm*3, size=s, log=T)+log(pi[4])

# J2rjekord selline, sest exp(l1_1)>0 ka siis, kui keskm~l6pmatus
l1_a = log(exp(l1_2-l1_1)+1)+l1_1
# l1_b = log(exp(l1_3-l1_4)+1)+l1_4
l1_b = l1_3
l1_1v = log(exp(l1_b-l1_a)+1)+l1_a

# V22rtusest 2*keskm0 suurema v22rtuse n2gemise t6en2osus
l1_1 =pnbinom( ypiir, mu=0.1, size=s, log=T, lower.tail=FALSE)+log(pi[1])
l1_2 =pnbinom(ypiir, mu=keskm, size=s, log=T, lower.tail=FALSE)+log(pi[2])
l1_3 =pnbinom(ypiir, mu=keskm*2, size=s, log=T, lower.tail=FALSE)+log(pi[3])
# l1_4 =pnbinom(ypiir, mu=keskm*3, size=s, log=T, lower.tail=FALSE)+log(pi[4])
l1_a = log(exp(l1_1-l1_2)+1)+l1_2
# l1_b = log(exp(l1_3-l1_4)+1)+l1_4
l1_b = l1_3
l1_1s = log(exp(l1_a-l1_b)+1)+l1_b


# vahepealsed
ind= 1<k & k<ypiir
k0=k[ind]

l1_1 =dnbinom(k0, mu=0.1, size=s, log=T)+log(pi[1])
l1_2 =dnbinom(k0, mu=keskm, size=s, log=T)+log(pi[2])
l1_3 =dnbinom(k0, mu=keskm*2, size=s, log=T)+log(pi[3])
# l1_4 =dnbinom(k0, mu=keskm*3, size=s, log=T)+log(pi[4])
l1_a = log(exp(l1_1-l1_2)+1)+l1_2
# l1_b = log(exp(l1_3-l1_4)+1)+l1_4
l1_b = l1_3
l1 = log(exp(l1_a-l1_b)+1)+l1_b

  # Valimi log-t6ep2ra
# tricube f(u)=70/81*(1-|u|^3)^3 range |u|<=1
#  lisa=0
#  if (tricube) { u=abs(4*(keskm-keskm0)/keskm0); lisa=-Inf; if(u<1) lisa=log(70/81*(1-u^3 )^3 )  }
  l2=sum(l1*n[ind]) + l1_1v*sum(n[k<=1])+l1_1s*sum(n[k>ypiir])
  if (is.na(l2) | abs(sum(pi)-1)>1e-14 ) l2=-Inf
  # print(l2)

#  print(paste("Funktsioon ll, x=", paste(x, collapse=","), "f(x)=", l2))

  return(l2)
}
}



ll_var2 = function(x, k, n, keskmine, keskm0=NA, yle=NULL){

  # pi - 0x 1x 2x 3x esinevate k-meeride osakaalud
  # x=c(1,1,1,12); k=a5$katvus; n=a5$n
  pi=par_to_p( x[1:2] )


  # keskmine katvus
  keskm=keskmine


  # ylehajuvusparameeter
  if (is.null(yle)) s=exp(x[3]) else s=yle


  # yhe vaatluse kontributsioon

# Arvutuste t2psuse t6stmine
# ln(a + b) = ln{exp[ln(a) - ln(b)] + 1} + ln(b)

# 1 v6i 0 t6en2osus (Roosaare failides 0-d sageli puudu)
l1_1 =pnbinom(1, mu=0.1, size=s, log=T)+log(pi[1])
l1_2 =pnbinom(1, mu=keskm, size=s, log=T)+log(pi[2])
l1_3 =pnbinom(1, mu=keskm*2, size=s, log=T)+log(pi[3])
# l1_4 =pnbinom(1, mu=keskm*3, size=s, log=T)+log(pi[4])
l1_a = log(exp(l1_1-l1_2)+1)+l1_2
# l1_b = log(exp(l1_3-l1_4)+1)+l1_4
l1_b = l1_3
l1_1v = log(exp(l1_a-l1_b)+1)+l1_b

# V22rtusest 2*keskm0 suurema v22rtuse n2gemise t6en2osus
l1_1 = pnbinom( ypiir, mu=0.1, size=s, log=T, lower.tail=FALSE)+log(pi[1])
l1_2 = pnbinom(ypiir, mu=keskm, size=s, log=T, lower.tail=FALSE)+log(pi[2])
l1_3 = pnbinom(ypiir, mu=keskm*2, size=s, log=T, lower.tail=FALSE)+log(pi[3])
# l1_4 = pnbinom(ypiir, mu=keskm*3, size=s, log=T, lower.tail=FALSE)+log(pi[4])
l1_a = log(exp(l1_1-l1_2)+1)+l1_2
# l1_b = log(exp(l1_3-l1_4)+1)+l1_4
l1_b = l1_3
l1_1s = log(exp(l1_a-l1_b)+1)+l1_b


# vahepealsed
ind= 1<k & k<ypiir
k0=k[ind]

l1_1 =dnbinom(k0, mu=0.1, size=s, log=T)+log(pi[1])
l1_2 =dnbinom(k0, mu=keskm, size=s, log=T)+log(pi[2])
l1_3 =dnbinom(k0, mu=keskm*2, size=s, log=T)+log(pi[3])
# l1_4 =dnbinom(k0, mu=keskm*3, size=s, log=T)+log(pi[4])
l1_a = log(exp(l1_1-l1_2)+1)+l1_2
# l1_b = log(exp(l1_3-l1_4)+1)+l1_4
l1_b = l1_3
l1 = log(exp(l1_a-l1_b)+1)+l1_b


  # Valimi log-t6ep2ra
#  lisa=0
#  if (tricube) { u=abs(4*(keskm-keskm0)/keskm0); lisa=-Inf; if(u<1) lisa=log(70/81*(1-u^3 )^3 )  }

  # l2=sum(l1*n)+lisa
  l2=sum(l1*n[ind]) + l1_1v*sum(n[k<=1])+l1_1s*sum(n[k>ypiir])
  if (is.na(l2) | abs(sum(pi)-1)>1e-14 ) l2=-Inf

#  print(paste("Funktsioon l2, x=", paste(x, collapse=","), "f(x)=", l2))
  
  return(l2)
}


# bakter
# ...........

keskm00=sum(k1*prop.table(n1))

# ylempiir - millise v22rtuseni vaadeldakse
# ypiir=ceiling(keskm00*2)
ypiir=ceiling(keskm00*5)

tul=optim(c(p_to_par(c(0.05, 0.9, 0.05)),  kesk_to_par(keskm00, keskm00), 4.5 ), ll, k=k1, n=n1, control=list(fnscale=-1), keskm0=keskm00)
tul=optim( tul$par, ll, k=k1, n=n1, control=list(fnscale=-1), keskm0=keskm00)
tul=optim( tul$par, ll, k=k1, n=n1, control=list(fnscale=-1), keskm0=keskm00)
tul=optim( tul$par, ll, k=k1, n=n1, control=list(fnscale=-1), keskm0=keskm00)
tul=optim( tul$par, ll, k=k1, n=n1, control=list(fnscale=-1), keskm0=keskm00)
tul=optim( tul$par, ll, k=k1, n=n1, control=list(fnscale=-1), keskm0=keskm00)
tul=optim( tul$par, ll, k=k1, n=n1, control=list(fnscale=-1), keskm0=keskm00)

count=0
while (tul$convergence!=0 & count<20){
  tul=optim( tul$par, ll, k=k1, n=n1, control=list(fnscale=-1), keskm0=keskm00)
  count=count+1
}

 pii1=par_to_p( tul$par[1:2] )

if (pii1[2]<0.8) warning("Vale bakter v6i koondumisprobleem????")


# plasmiid
# ...........

keskm00_plasmiid=sum(k2*prop.table(n2))

# tul2=optim(c(2, 1, 1, (sum(katvus*prop.table(nn2)))  ), ll, n=nn2, control=list(fnscale=-1))
tul2=optim(c(p_to_par(c(0.05, 0.9, 0.05)), kesk_to_par(keskm00_plasmiid, keskm00) ), ll, k=k2, n=n2, control=list(fnscale=-1), keskm0=keskm00, yle=exp(tul$par[4]) )
tul2=optim( tul2$par, ll, k=k2, n=n2, control=list(fnscale=-1), keskm0=keskm00, yle=exp(tul$par[4]) )
tul2=optim( tul2$par, ll, k=k2, n=n2, control=list(fnscale=-1), keskm0=keskm00, yle=exp(tul$par[4]))
tul2=optim( tul2$par, ll, k=k2, n=n2, control=list(fnscale=-1), keskm0=keskm00, yle=exp(tul$par[4]))
tul2=optim( tul2$par, ll, k=k2, n=n2, control=list(fnscale=-1), keskm0=keskm00, yle=exp(tul$par[4]))

count=0
while (tul2$convergence!=0 & count<20){
  tul2=optim( tul2$par, ll, k=k2, n=n2, control=list(fnscale=-1), keskm0=keskm00, yle=exp(tul$par[4]))
  count=count+1
}

 pii2=par_to_p( tul2$par[1:2] )
# if (pii2[2]<0.8) warning("Vale plasmiid v6i koondumisprobleem????")


tul3=optim(  c(tul2$par[1:2]), ll_var2, k=k2, n=n2, keskmine=par_to_kesk(tul$par[3], keskm00) ,control=list(fnscale=-1), keskm0=keskm00, yle=exp(tul$par[4]))
tul3=optim(  tul3$par, ll_var2, k=k2, n=n2, keskmine=par_to_kesk(tul$par[3], keskm00) ,control=list(fnscale=-1), keskm0=keskm00, yle=exp(tul$par[4]))

count=0
while (tul3$convergence!=0 & count<20){
  tul3=tul3=optim(  tul3$par, ll_var2, k=k2, n=n2, keskmine=par_to_kesk(tul$par[3], keskm00) ,control=list(fnscale=-1), keskm0=keskm00, yle=exp(tul$par[4]))
  count=count+1
}

 pii3=par_to_p( tul3$par[1:2] )

# if (pii2[4]>0.85) print("pvalue2 ja teststatistik2 pole usaldusv22rselt arvutatud!!!")


like3a=ll(tul2$par, k=k2, n=n2, yle=exp(tul$par[4]), keskm0=keskm00)
like3b=ll_var2(tul3$par, k=k2, n=n2, keskmine=par_to_kesk(tul$par[3], keskm00), keskm0=keskm00, yle=exp(tul$par[4]))

# readi pikkus 100

teststat2 = 2*(like3a-like3b)/readi_pikkus
pvalue2 = 1-pchisq(teststat2, 1)


# print("***************************************")
# print("Bakter, osakaalud:")
# print(round(pii1,5))
# print(paste("katvus:", (par_to_kesk(tul$par[3], keskm00) ) ))
# print(paste("ylehajuvus:", (exp(tul$par[4])) ))


# print(paste("Plasmiid, osakaalud:"))
# print(round(pii2,5))
# print(paste("katvus:",par_to_kesk(tul2$par[3], keskm00)))

# print(paste("Plasmiid, osakaalud 2:"))
# print(round(pii3,5))

# print(paste("Teststatistik:", teststat2))
# print(paste("pvalue:", pvalue2))

koondus=!(tul$convergence!=0 | tul2$convergence!=0 | tul3$convergence!=0 | pii1[2]<0.8)

if (!koondus) { 
	  print("Ettevaatust!!! Koondumisprobleem!!!!!!!")
  	  print(paste("Tehniline probleemi kirjeldus:  koondumine 1:", tul$convergence , 
		" koondumine 2:", tul2$convergence, " koondumine 3:", tul3$convergence, "bakteri normaalsete k-meeride osakaal:", pii1[2]))
	}

tulem=list(teststat=teststat2, pvalue=pvalue2, koondus=koondus, bakter_osakaal=pii1, plasmiid_osakaal1=pii2, plasmiid_osakaal2=pii3, bakter_katvus=par_to_kesk(tul$par[3], keskm00), plasmiid_katvus=par_to_kesk(tul2$par[3], keskm00), size=exp(tul$par[4]), piirkond=c(1, ypiir), k1=k1, n1=n1, k2=k2, n2=n2  )
class(tulem)="TestPlasmid"
return(tulem)
}

print.TestPlasmid=function(x){
  print(paste("Statistic = ", round(x$teststat,3), sep=""), quote=FALSE)
  print(paste("p-value   = ",  format(x$pvalue, digits=4), sep=""), quote=FALSE)
  print(paste("Convergence: ", x$koondus), quote=FALSE)
}

plot.TestPlasmid=function(x){
# x=ah
  katvus=0:(x$piirkond[2]*1.4)
  n=rep(0, length(katvus))
  ind=x$k1 %in% katvus
  n[x$k1[ind]+1]=x$n1[ind]
  names(n)=katvus
  plot(katvus, prop.table(n), type="p", xlim=range(katvus), col="lightblue", xlab="Coverage", ylab="distribution of k-mers", pch=20)
  ind=katvus<=x$piirkond[2] & katvus>=x$piirkond[1]
  points(katvus[ind], prop.table(n)[ind], pch=20, col="blue2")
  abline(v=x$piirkond, lty=2)

  n2=rep(0, length(katvus))
  ind=x$k2 %in% katvus
  n2[x$k2[ind]+1]=x$n2[ind]
  names(n2)=katvus
  points(katvus, prop.table(n2), xlim=range(katvus), col="pink", pch=20)
  ind=katvus<=x$piirkond[2] & katvus>=x$piirkond[1]
  points(katvus[ind], prop.table(n2)[ind], col=2, pch=20)

yA1=dnbinom(katvus,  mu=0.1,  size=x$s)
yA2=dnbinom(katvus,  mu=x$bakter_katvus*1,  size=x$s)
yA3=dnbinom(katvus,  mu=x$bakter_katvus*2,  size=x$s)
yA=yA1*x$bakter_osakaal[1]+ yA2*x$bakter_osakaal[2]+ yA3*x$bakter_osakaal[3]
lines(katvus, yA, col="darkblue", lwd=2)

yB1=dnbinom(katvus,  mu=0.1,  size=x$s)
yB2=dnbinom(katvus,  mu=x$plasmiid_katvus*1,  size=x$s)
yB3=dnbinom(katvus,  mu=x$plasmiid_katvus*2,  size=x$s)
yB=yB1*x$plasmiid_osakaal1[1]+ yB2*x$plasmiid_osakaal1[2]+ yB3*x$plasmiid_osakaal1[3]
lines(katvus, yB, col="darkred", lwd=2)

# yC1=dnbinom(katvus,  mu=0.1,  size=x$s)
# yC2=dnbinom(katvus,  mu=x$bakter_katvus*1,  size=x$s)
# yC3=dnbinom(katvus,  mu=x$bakter_katvus*2,  size=x$s)
# yC=yC1*x$plasmiid_osakaal2[1]+ yC2*x$plasmiid_osakaal2[2]+ yC3*x$plasmiid_osakaal2[3]
# lines(katvus, yC, col="red2", lwd=1)

abline(v=x$bakter_katvus, col="blue", lty=2)
abline(v=x$plasmiid_katvus, col="red", lty=2)
}

# End of function

#####################################
# Read in data and calculate values #
#####################################

bac=read.csv2(bac_file, header=T)
plasmid=read.csv2(plasmid_file, header=T)

#Launch the function

ah=testiPlasmiidi2(bac[,1], bac[,2], plasmid[,1], plasmid[,2], readi_pikkus=read_length)

ah$teststat
ah$pvalue
ah$koondus