Idi na sadržaj

SMILES

S Wikipedije, slobodne enciklopedije
Generiranje SMILES-a: Razbijanje prstena, zatim se bilježe grane spojene sa glavnim lancem.

SMILES (skr. od engl. simplified molecular-input line-entry system - jednostavni sistem molekularnog linijskog unosa stavki) jeste specifikacija u obliku linijske notacije za opisivanje strukture hemijske molekule koristeći kratke ASCII kodove. SMILES kodovi se mogu uvoziti u većinu računarskih uređivača molekula za lakše pretvaranje u dvodimenzionalne crteže ili trodimenzionalne modele molekula.

Prvobitne SMILES specifikacije je uveo autor David Weininger u laboratoriji (USEPA Mid-Continent Ecology Division laboratorija) u američkom gradu Duluth, Minnesota tokom 1980tih.[1][2][3] Zasluge za svoj dio u ranom razvoju dobili su Gilman Veith i Rose Russo (USEPA) i Albert Leo i Corwin Hansch (koledž Pomona) za podršku radu, te Arthur Weininger (Pomona, Daylight CIS) i Jeremy Scofield (Cedar River Software, Renton, Washington) za pomoć u programiranju sistema.[4] Američka agencija za zaštitu okoline je finansirala prvobitni projekat razvoja sistema SMILES.[5][6]

Od tada, sistem je izmijenjen a drugi naučnici i institucije su ga proširili, najviše Daylight Chemical Information Systems. Godine 2007. hemijska zajednica otvorenog koda Blue Obelisk je razvila otvoreni standard nazvan OpenSMILES. Druge linijske notacije uključuju sisteme Wiswesser Line Notation (WLN), ROSDAL i SLN (Tripos Inc).

Jula 2006. Međunarodna unija za čistu i primijenjenu hemiju (IUPAC) uvela je InChi (Međunarodni hemijski identifikator) kao standard u predstavljanju formula. Za SMILES se općenito smatra da imaju prednost što su nešto lakše za čitanje prosječnom čovjeku za razliku od InChi. Također SMILES imaju mnogo širu softversku bazu podrške sa ekstenzivnijom teoretskom podrškom (npr. teorija grafova).

Terminologija

[uredi | uredi izvor]

Pojam SMILES se odnosi na linijsku notaciju za predstavljanje molekulske strukture i specifičnih slučajeva, a sam sistem bi se općenito trebao zvati SMILES znakovi. Međutim, pojam SMILES se također obično koristi i za pojedinačni znak i za sam niz SMILES znakova, a stvarno značenje pojma zavisi od konteksta. Pojmi Canonical i izomerski ponekad dovode do zabune kada se koriste u kontekstu SMILES. Pojmovi opisuju različe osobine SMILES znakova i nisu međusobno isključivi. Tipično, ogromni broj podjednako validnih SMILES se može napisati za neku molekulu. Naprimjer, znakovi CCO, OCC i C(O)C označavaju strukturu etanola. Razvijeni su algoritmi koji omogućavaju da se generira isti SMILES za određenu molekulu bez obzira na raspored atoma u strukturi. Taj SMILES je unikatan za svaku strukturu mada je zavisan od kanonizacije korištenog algoritma, a naziva se Canonical SMILES. Ovi algoritmi najprije pretvaraju SMILES u interno predstavljanje molekulske strukture i jednostavno ne manipuliraju znakovima kao što se to ponekad misli. Razvijeni su razni algoritmi za generisanje Canonical SMILES, uključujući one od kompanija kao što su Daylight Chemical Information Systems, OpenEye Scientific Software, MEDIT, Chemical Computing Group, MolSoft LLC i Chemistry Development Kit. Najčešća upotreba Canonical SMILES je indeksiranje i osiguravanje jedinstvenosti molekula u nekoj hemijskoj bazi podataka.

Važno je napomenuti da u prvobitnom radu u kojem je opisan CANGEN[2] algoritam, navedeno da je pri generiranju unikatnog SMILES niza za grafikone koji predstavljaju molekule nije uspjelo za neke od jednostavnijih slučaja (npr. kunean i 1,2 diciklopropiletan) i ne može se smatrati ispravnom metodom za kanoniziranje grafikona.[7] Ne postoje sistematske usporedbe među komercijalnim softverom da bi se isprobalo postoje li takve greške u softverskim paketima.

SMILES notacija omogućava specificiranje konfiguracije tetrahedralnih središta i geometrije dvostrukih veza. Postoje i strukturalne osobine koje se ne mogu odrediti isključivo povezivošću a SMILES koji kodira ove podatke naziva se izomerski SMILES. Značajna osobina tih pravila je ta što ona omogućavaju tačnu djelomičnu specifikaciju hiralnosti. Pojam izomerski SMILES se također primjenjuje i na SMILES u kojima su navedeni izotopi.

Definicija zasnovana na grafikonu

[uredi | uredi izvor]

U aspektima računarske procedure zasnovane na grafikonu, SMILES je niz znakova koji se dobiju štampanjem simbola nađenih u hemijskom prikazu, tako da se duž lanca prvo uzimanju atomi po dubini. Najprije se iz hemijskog grafikona uklone atomi vodika, a prstenovi se izlome i pretvore u razgranato stablo. Na mjestima gdje su prstenovi prekinuti, stavlja se oznaka brojevnog sufiksa da bi se istaknuo čvor na koji je spojen. Zagrade se koriste da bi se istakle tačke gdje se stablo grana.

Primjeri

[uredi | uredi izvor]

Atomi se prikazuju po standardnom simbolu hemijskog elemente, u uglastim zagradama, naprimjer [Au] za zlato. Zagrade se mogu izostaviti za organski dio molekule, i to za elemente B, C, N, O, P, S, F, Cl, Br i I. Svi drugi elementi moraju biti u zagradama. Ako su zagrade izostavljene, pretpostavlja se da se radi o regularnom broju atoma vodika, naprimjer, SMILES za vodu je jednostavno O (jer se podrazumjeva da su na kisik spojena 2 atoma).

Atom koji ima jedno ili više naelektrisanja navodi se u zagradama, nakon čega slijedi simbol H ako je na njega povezan jedan ili više atoma vodika, a nakon njega navodi se broj atoma vodika (broj jedan se ne navodi: naprimjer NH4 za amonijak), zatim se stavlja znak + za pozitivno naelektrisanje ili - za negativno. Broj naelektrisanja se navodi nakon znaka (osim ako je samo jedno). Međutim, također je moguće pisati znak onoliko puta koliko je ion naelektrisan. Dakle, umjesto "Ti+4", također se može pisati "Ti++++" (titanij IV, Ti4+). Tako se i hidroksidni anion označava [OH-], oksonij kation je [OH3+], a kobalt III kation (Co3+) može se označiti bilo [Co+3] ili [Co+++].

Veze između alifatskih atoma se podrazumijevaju da su jednostruke osim ako je navedeno drugačije, a implicirano je da se odnose na susjedni SMILES znak. Naprimjer, SMILES za etanol može se napisati kao CCO. Oznake zatvaranja prstena koriste se za označavanje spojenosti između nesusjednih atoma u SMILES nizu, tako da se naprimjer cikloheksan i dioksan mogu pisati kao C1CCCCC1 i O1CCOCC1, respektivno. Za drugi prsten, oznaka će biti 2 (naftalen: c1cccc2c1cccc2 (zbog aromatskog spoja su mala slova)), i tako dalje. Kada se dosegne broj 9, prije oznake mora se staviti znak '%', da bi se mogle razlikovati dvije različite spojene na isti atom (~C12~ bi značilo da atom ugljika drži prsten označen sa 1 i 2, dok ~C%12~ bi značilo da postoji samo jedna oznaka, 12). Dvostruke, trostruke i višestruke hemijske veze označavaju se simbolima '=', '#' i '$', respektivno, kao što to ilustriraju SMILES O=C=O (ugljik dioksid), C#N (cijanovodik) ili [Ga-]$[As+] (galij arsenid).

Aromatičnost

[uredi | uredi izvor]

Aromatski atomi C, O, S i N prikazuju se malim slovima 'c', 'o', 's' i 'n', respektivno. Tako se naprimjer benzen, piridin i furan mogu prikazati respektivno sa SMILES c1ccccc1, n1ccccc1 i o1cccc1. Veze između aromatskih atoma su, pretpostavljeno, aromatske mada se one mogu eksplicitno navesti koristeći simbol ':'. Aromatski atomi se mogu vezati jedan na drugi jednostrukom vezom, tako da se bifenil označava kao c1ccccc1-c2ccccc2. Aromatski dušik vezan za vodik, kao što je to slučaj u pirolu mora se navesti kao [nH] a imidazol se u SMILES notaciji označava kao n1c[nH]cc1.

Algoritmi Daylight i OpenEye za generiranje kanonskih SMILES se donekle razlikuju kod svoje obrade aromatičnosti.

Vizuelno predstavljanje 3-cijanoanizola kao COc(c1)cccc1C#N.

Grananje

[uredi | uredi izvor]

Grananje lanca se opisuje zagradama, kao naprimjer CCC(=O)O za propionsku kiselinu i C(F)(F)F za fluoroform. Supstituirani prstenovi se mogu pisati sa tačkom grananja u prstenu kao što ilustriraju SMILES COc(c1)cccc1C#N (vidi prikaz) i COc(cc1)ccc1C#N (vidi prikaz) koji prikazuju izomere 3 i 4-cijanoanizola. Pisanje SMILES za supstituirane prstenove na ovaj način čini ih lakšim za čitanje.

Stereohemija

[uredi | uredi izvor]

Konfiguracija oko dvostrukih veza je specificirana korištenjem znakova "/" i "\". Naprimjer, F/C=C/F (vidi prikaz) je jedan prikaz trans-difluoroetena, u kojem su atomi fluora na suprotnim stranama dvostruke veze, dok je F/C=C\F (vidi prikaz) jedan od mogućih prikaza cis-difluoroetena, u kojima su atomi F na istoj strani dvostruke veze, kao što je prikazano.

Konfiguracija na tetrahedralnom ugljiku navodi se oznakama @ ili @@. L-alanin, više uobičajen enantiomer aminokiseline alanina može se napisati kao N[C@@H](C)C(=O)O (vidi prikaz). Oznaka @@ označava da, ukoliko se posmatra od dušika duž veze prema hiralnom centru, sekvenca supstituiranih vodika (H), metil (C) i karboksilata (C(=O)O) prikazana je u smijeru kazaljke sata. Nasuprot njega, D-alanin se piše kao N[C@H](C)C(=O)O (vidi prikaz). Slijed supstituenata u SMILES nizu je veoma važan a D-alanin se naprimjer može kodirati i kao N[C@@H](C(=O)O)C (vidi prikaz).

Izotopi

[uredi | uredi izvor]

Izotopi su određeni brojem jednakim njihovoj cjelobrojnoj izotopskoj masi ispred simbola atoma. Benzen u kojem je jedan atom ugljika izotop 14 piše se kao [14c]1ccccc1 a deuterohloroform je [2H]C(Cl)(Cl)Cl.

Primjeri nekih molekula

[uredi | uredi izvor]
Molekula Strukutra SMILES formula
molekula dušika N≡N N#N
Metil izocijanat (MIC) CH3–N=C=O CN=C=O
Bakar(II) sulfat Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]
Oenantotoksin (C17H22O2) Molekulska struktura oenantotoksina CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
Piretrin II (C22H28O5) Molekulska struktura piretrina II COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C
Aflatoksin B1 (C17H12O6) Molekulska struktura aflatoksina B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
Glukoza (glukopiranoza) (C6H12O6) Molekulska struktura glukopiranoze OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1
Bergenin (kuskutin) (C14H16O9) Molekulska struktura kuskutina (bergenina) OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
Feromon štitaste uši porijeklom iz Kalifornije (3Z,6R)-3-metil-6-(prop-1-en-2-il)deka-3,9-dien-1-il acetat CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
2S,5R-halkogran: feromon kukca Pityogenes chalcographus[8] (2S,5R)-2-etil-1,6-dioksaspiro[4.4]nonan CC[C@H](O1)CC[C@@]12CCCO2
Vanilin Molekulska struktura vanilina O=Cc1ccc(O)c(OC)c1
Melatonin (C13H16N2O2) Molekulska struktura melatonina CC(=O)NCCC1=CNc2c1cc(OC)cc2
Flavopereirin (C17H15N2) Molekulska struktura flavopereirina CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4
Nikotin (C10H14N2) Molekulska struktura nikotina CN1CCC[C@H]1c2cccnc2
alfa-tujon (C10H16O) Molekulska struktura tujona CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
Tiamin (vitamin B1) (C12H17N4OS+) Molekulska struktura tiamina OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2

Ilustracija sa molekulom koja sadrži više od 9 prstenova, cefalostatin-1[9] (steroidski trisdekaciklični pirazin sa empirijskom formulom C54H74N2O10 izoliran iz hemihordata Cephalodiscus gilchristi koji živi u Indijskom okeanu:

Molekulska struktura cefalostatin-1

Počev od metil grupe koja se nalazi krajnje lijevo u prikazu:

C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

Primjećuje se znak '%' ispred indeksa oznake zatvaranja prstena viših od broja 9. Pogledajte sekciju Veze.

Drugi primjeri SMILES

[uredi | uredi izvor]

SMILES notacija je ekstenzivno opisana u teoretskom priručniku za SMILES koji je izdao Daylight Chemical Information Systems kao i brojnim ilustrativnim primjerima. Daylightov alat omogućava korisnicima da provjere svoje primjere SMILES kodova te je vrlo koristan alat za obrazovne svrhe.

Proširenja

[uredi | uredi izvor]

SMARTS (skr. od engl. Smiles arbitrary target specification) je linijska notacija za specifikaciju substrukturnih šema u molekuli. Iako koristi mnoge iste simbole kao SMILES, ona također omogućava i specifikaciju zamjenskih simbola za atome i veze, koji se mogu koristiti za definiranje substrukturnih upita pri pretraživanju hemijskih baza podataka. Jedna od zabluda je da substrukturna pretraga zasnovana na SMARTS uključuje poređenje SMILES i SMARTS nizova. Zapravo, nizovi SMARTS i SMILES se prvo pretvaraju u interni grafički prikaz a koji dalje pretražuje po izomorfnim subgrafikonima. SMIRKS je linijska notacija za transformacije specifičnih reakcija.

Konverzija

[uredi | uredi izvor]

SMILES se mogu ponovo pretvoriti u dvodimenzionalni prikaz koristeći algoritme generiranje strukturnog dijagrama (Helson, 1999). Ovo pretvaranje često nije jednoznačno. Konverzija u trodimenzionalni prikaz postiže se pristupima minimiziranja energije. Na internetu je dostupan veliki broj alata za pretvaranje SMILES.

Reference

[uredi | uredi izvor]
  1. ^ Weininger 1988
  2. ^ a b Weininger, Weininger i Weininger 1989
  3. ^ Weininger 1990
  4. ^ Weininger, Dave. "Acknowledgements on Daylight Tutorial smiles-etc page". Pristupljeno 24. 6. 2014.
  5. ^ Anderson, Veith i Weininger 1987
  6. ^ "SMILES Tutorial: What is SMILES?". Arhivirano s originala, 13. 7. 2012. Pristupljeno 23. 9. 2012. Nepoznati parametar |izdavač= zanemaren (pomoć)
  7. ^ Hutchison, David; Takeo Kanade, Josef Kittler, Jon M. Kleinberg, Friedemann Mattern, John C. Mitchell, Moni Naor, Oscar Nierstrasz, C. Pandu Rangan, Bernhard Steffen, Madhu Sudan, Demetri Terzopoulos, Dough Tygar, Moshe Y. Vardi, Gerhard Weikum, Louiqa Raschid, Greeshma Neglur, Robert L. Grossman, Bing Liu (2005). "Assigning Unique Keys to Chemical Compounds for Data Integration: Some Interesting Counter Examples". Data Integration in the Life Sciences. Lecture Notes in Computer Science. 3615. Berlin: Springer. str. str. 145–157. ISBN 978-3-540-27967-9. Pristupljeno 12. 2. 2013. Upotreblja se zastarjeli parametar |chapterurl= (pomoć)[mrtav link] doi:10.1007/11530084_13
  8. ^ Byers, J. A.; Birgersson, G.; Löfqvist, J.; et al. (1990). "Isolation of pheromone synergists of bark beetle, Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay" (PDF). Journal of Chemical Ecology. 16 (3): str. 861–76. doi:10.1007/BF01016496. PMID 24263601. Pristupljeno 12. 5. 2012. Eksplicitna upotreba et al. u: |first= (pomoć)
  9. ^ National Center for Biotechnology Information (NCBI). PubChem Compound. (pristup 12. maja 2012) PubChem spoj CID=183413 (cefalostatin-1)

Literatura

[uredi | uredi izvor]
  • Anderson, E.; Veith, G. D.; Weininger, D. (1987). SMILES: A line notation and computerized interpreter for chemical structures. Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth. Report No. EPA/600/M-87/021.CS1 održavanje: ref=harv (link)
  • Helson, H. E.; Lipkowitz, K. B.; Boyd, D. B. (1999). "Structure Diagram Generation". Rev. Comput. Chem. 13. New York: Wiley-VCH. str. 313–398.CS1 održavanje: ref=harv (link) doi:10.1002/9780470125908.ch6
  • Weininger, David (1. 2. 1988). "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules". Journal of Chemical Information and Modeling. 28 (1): 31–6.CS1 održavanje: ref=harv (link) doi:10.1021/ci00057a005
  • Weininger, David; Weininger, Arthur; Weininger, Joseph L. (1. 5. 1989). "SMILES. 2. Algorithm for generation of unique SMILES notation". Journal of Chemical Information and Modeling. 29 (2): 97–101.CS1 održavanje: ref=harv (link) doi:10.1021/ci00062a008
  • Weininger, David (1. 8. 1990). "SMILES. 3. DEPICT. Graphical depiction of chemical structures". Journal of Chemical Information and Modeling. 30 (3): 237–43.CS1 održavanje: ref=harv (link) doi:10.1021/ci00067a005

Vanjski linkovi

[uredi | uredi izvor]

Specifikacije

[uredi | uredi izvor]

Softverske aplikacije povezane sa SMILES

[uredi | uredi izvor]