File: extract_FASTA.awk

package info (click to toggle)
macromoleculebuilder 4.0.0%2Bdfsg-3.1~exp1
  • links: PTS, VCS
  • area: main
  • in suites: experimental
  • size: 122,532 kB
  • sloc: cpp: 23,631; python: 5,047; ansic: 2,101; awk: 145; perl: 144; makefile: 40; sh: 21
file content (80 lines) | stat: -rw-r--r-- 2,646 bytes parent folder | download | duplicates (5)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
BEGIN {
ORS = ""
CHAIN = "CHAIN-NOT-SET"
FIRSTRESIDUE = -1111
BIOPOLYMER = "NOT-SET"
}

(FNR == 1) {print "\n\n";}

((substr($1,1,6) =="HETATM") || ($1 =="ATOM")  ) {
if (substr($0,22,1) != CHAIN  ) {
print "\nChain ID: ",substr($0,22,1) ,"\n";
CHAIN = substr($0,22,1)
FIRSTRESIDUE = substr($0,23,4);
print "First residue # ",FIRSTRESIDUE,"\n";
if ( ($3 == "C")) {
#BIOPOLYMER = "protein";
#print "Biopolymer type = ",BIOPOLYMER,"\n";
}
}
}

(((substr($1,1,6) =="HETATM") || ($1 =="ATOM")) && (($3 == "C")    )  ) {
if (substr($0,18,3) =="ALA") {print "A"}
if (substr($0,18,3) =="ARG") {print "R"}
if (substr($0,18,3) =="ASN") {print "N"}
if (substr($0,18,3) =="ASP") {print "D"}
if (substr($0,18,3) =="CYS") {print "C"}
if (substr($0,18,3) =="GLU") {print "E"}
if (substr($0,18,3) =="GLN") {print "Q"}
if (substr($0,18,3) =="GLY") {print "G"}
if (substr($0,18,3) =="HIS") {print "H"}
if (substr($0,18,3) =="ILE") {print "I"}
if (substr($0,18,3) =="LEU") {print "L"}
if (substr($0,18,3) =="LYS") {print "K"}
if (substr($0,18,3) =="MET") {print "M"}
if (substr($0,18,3) =="PHE") {print "F"}
if (substr($0,18,3) =="PRO") {print "P"}
if (substr($0,18,3) =="SER") {print "S"}
if (substr($0,18,3) =="THR") {print "T"}
if (substr($0,18,3) =="TRP") {print "W"}
if (substr($0,18,3) =="TYR") {print "Y"}
if (substr($0,18,3) =="VAL") {print "V"}

#RNA section 
#if (substr($0,18,3) =="A  ") {print "A"}
#if (substr($0,18,3) =="U  ") {print "U"}
#if (substr($0,18,3) =="G  ") {print "G"}
#if (substr($0,18,3) =="C  ") {print "C"}
#if (substr($0,18,3) =="  A") {print "A"}
#if (substr($0,18,3) =="  U") {print "U"}
#if (substr($0,18,3) =="  G") {print "G"}
#if (substr($0,18,3) =="  C") {print "C"}

}
(((substr($1,1,6) =="HETATM") ||($1 =="ATOM")) && (($3 == "C3\'") || ($3 == "C3*"))) {
    #print $0"\n";
#    TEMP  =substr($0,18,3);
#    gsub(/ */,"", TEMP);
#    print TEMP ;
    
if (substr($0,18,3) =="A  ") {print "A"}
if (substr($0,18,3) =="U  ") {print "U"}
if (substr($0,18,3) =="G  ") {print "G"}
if (substr($0,18,3) =="C  ") {print "C"}
if (substr($0,18,3) =="  A") {print "A"}
if (substr($0,18,3) =="  U") {print "U"}
if (substr($0,18,3) =="  G") {print "G"}
if (substr($0,18,3) =="  C") {print "C"}
if (substr($0,18,3) =="DA ") {print "A"}
if (substr($0,18,3) =="DT ") {print "T"}
if (substr($0,18,3) =="DG ") {print "G"}
if (substr($0,18,3) =="DC ") {print "C"}
if (substr($0,18,3) ==" DA") {print "A"}
if (substr($0,18,3) ==" DT") {print "T"}
if (substr($0,18,3) ==" DG") {print "G"}
if (substr($0,18,3) ==" DC") {print "C"}

}
END   {ORS = "\n"; print "\n\n"}