אלגוריתם ה-FFT של קולי-טוקי
אלגוריתם קולי-טוקי, על שמם של ג'יימס קולי (אנ') וג'ון טוקי, הוא אלגוריתם התמרת פורייה מהירה (FFT) הנפוץ ביותר. הוא מבטא מחדש, באופן רקורסיבי, את התמרת פורייה הבדידה (DFT) בגודל פריק שרירותי במונחים של N1 התמרות DFT קטנות יותר, כל אחת בגודל N2, וזאת על מנת להפחית את זמן החישוב ל-O(N log N) עבור N פריק מאוד.
מכיוון שאלגוריתם קולי-טוקי מפרק את ה-DFT להתמרות DFT קטנות יותר, ניתן לשלבו עם כל אלגוריתם DFT אחר. לדוגמה, ניתן להשתמש באלגוריתמים של Rader או Bluestein לטיפול בגורמים ראשוניים גדולים שלא ניתן לפרק על ידי קולי-טוקי, או שאפשר להשתמש באלגוריתם FFT של גורם ראשוני ליעילות רבה יותר בהפרדת גורמי מספרים זרים .
האלגוריתם, כולל יישומו הרקורסיבי, הומצא בידי קרל פרידריך גאוס. 160 שנה מאוחר יותר, קולי וטוקי פיתחו אותו מחדש והפכו אותו לפופולרי .
היסטוריה
אלגוריתם זה ויישומו הרקורסיבי, הומצאו כאמור בסביבות 1805 בידי קרל פרידריך גאוס, שהשתמש בו לחישובי אינטרפולציה של מסלולי האסטרואידים פאלאס ויונו, אך עבודתו לא זכתה להכרה רחבה (היא התפרסמה רק לאחר מותו, ובנאו-לטינית ). [1][2] גאוס, בכל אופן, לא ניתח את זמן החישוב האסימפטוטי. כמה צורות מוגבלות הומצאו מחדש מספר פעמים במהלך המאה ה-19 ותחילת המאה ה-20.[2] FFT הפך לפופולרי לאחר שג'יימס קולי מ- IBM וג'ון טוקי מפרינסטון פרסמו ב-1965 מאמר הממציא מחדש את האלגוריתם ומתאר כיצד לבצע אותו בנוחות על מחשב.[3]
על פי המדווח, טוקי הגה את הרעיון במהלך פגישה של הוועדה המייעצת למדע של הנשיא קנדי, שדנה בדרכים לאיתור ניסויים בנשק גרעיני בברית המועצות על ידי שימוש בסייסמומטרים הממוקמים מחוץ למדינה. חיישנים אלה ייצרו סדרות זמן סייסמולוגיות. הבעיה הייתה שניתוח נתונים אלה ידרוש אלגוריתמים מהירים לחישוב DFT בשל מספר החיישנים ואורך סדרות הזמן. משימה זו הייתה קריטית לצורך אשרור האיסור המוצע על ניסויים גרעיניים, כך שניתן יהיה לזהות כל הפרה ללא צורך בביקור במתקנים סובייטיים. [4] [5] משתתף אחר באותה פגישה היה ריצ'רד גארווין מ-IBM, שהכיר בפוטנציאל של השיטה ודאג ליצור קשר בין טוקי וקולי. גארווין וידא שקולי לא ידע את המטרה המקורית. במקום זאת, נאמר לו שזה נחוץ כדי לקבוע מחזוריות של כיווני הספין בגביש תלת-ממדי של הליום-3 . קולי וטוקי פרסמו לאחר מכן את המאמר המשותף שלהם, שאומץ במהירות ובאופן נרחב, וזאת בשל הפיתוח הבו-זמני של ממירי אנלוגי לדיגיטלי המסוגלים לדגום בקצבים של עד 300KHz.
העובדה שגאוס תיאר את אותו אלגוריתם (הגם שמבלי לנתח את עלותו האסימפטוטית) נודעה רק מספר שנים לאחר פרסום המאמר של קולי-טוקי בשנת 1965.[2] המאמר שלהם ציין כהשראה רק את עבודתו של IJ Good שנקראת כיום אלגוריתם FFT של גורם ראשוני (PFA);[3] למרות שהאלגוריתם של Good נחשב בתחילה כשקול לאלגוריתם קולי-טוקי, התברר במהרה ש-PFA הוא אלגוריתם שונה לחלוטין (עובד רק עבור גדלים שיש להם גורמים שהם מספרים זרים ומסתמך על משפט השאריות הסיני, בניגוד לתמיכה בכל גודל פריק ב-קולי-טוקי). [6]
radix-2 FFT
FFT מסוג Radix-2 הוא הגרסה הפשוטה והנפוצה ביותר של אלגוריתם קולי-טוקי. יישומי קולי-טוקי בעלי אופטימיזציה גבוהה משתמשים לרוב בגרסאות אחרות של האלגוריתם, כפי שיתואר בהמשך. בשיטה זו גודל הקלט N הוא חזקה של שתיים. בכל שלב רקורסיבי, Radix-2 מחלק DFT בגודל N לשני DFT שזורים (interleaved) בגודל N/2.
התמרת פורייה הבדידה (DFT) מוגדרת בידי הנוסחה:
כאשר הוא מספר שלם הנע בין 0 ל .
אנו מניחים כאן ש-N הוא חזקה של שתיים. Radix-2 מחשב תחילה את ה-DFT של ערכי הקלט בעלי האינדקס הזוגי ושל ערכי הקלט בעלי האינדקס האי-זוגי , ולאחר מכן משלב את התוצאות הללו כדי לחשב את ה-DFT של הרצף כולו. את התהליך הזה ניתן לבצע באופן רקורסיבי ובכך להוריד את זמן הריצה הכולל ל-O(NlogN). היישום יכול לרוב, הגם שלא תמיד, לבחור את מספר נקודות הדגימה N באופן חופשי (למשל בעזרת שיטות כגון שינוי קצב הדגימה, גודל החלון, או zero-padding). לכן, לעיתים קרובות, הגודל של חזקה של שתיים אינו מגבלה חשובה.
אלגוריתם radix-2 מארגן מחדש את ה-DFT של הפונקציה בשני חלקים: סכום של האינדקסים הזוגיים וסכום של האי-זוגיים :
בסכום השני אפשר למצוא מכפיל משותף, , כמוצג במשוואה למטה. שני הסכומים במשוואה זו הם ה-DFT של המרכיבים הזוגיים וה-DFT של המרכיבים האי-זוגיים של הפונקציה .
נסמן את ה-DFT של המרכיבים הזוגיים כ-.
נסמן את ה-DFT של המרכיבים האי-זוגיים כ-.
ונקבל:
השוויון אמנם מתקיים עבור , אך הנקודה המכרעת היא שאת הערכים ו יש לחשב רק עבור . הודות למחזוריות של המעריך המרוכב, מחושב גם הוא מ ו , כלהלן :
אנחנו יכולים לכתוב מחדש את ו כלהלן:
תוצאה זו, ביטויו הרקורסיבי של DFT באורך N במונחי שני DFT באורך N/2, היא הליבה של התמרת פורייה המהירה radix-2. מקור המהירות של האלגוריתם הוא השימוש החוזר בתוצאות חישובי ביניים כדי לחשב כמה תוצאות DFT. התוצאות הסופיות מתקבלות על ידי שילוב +/− של ו , שהוא פשוט DFT בגודל 2 (הנקרא לעיתים פרפר בהקשר הזה); כאשר מכלילים לבסיסים גדולים יותר כמתואר להלן, ה-DFT בגודל 2 מוחלף בידי DFT גדול יותר (שבעצמו ניתן לחישוב בעזרת FFT).
תהליך זה מדגים את הטכניקה הכללית של אלגוריתמי הפרד ומשול ; עם זאת, ביישומים רבים, נמנעת הרקורסיה המפורשת, ובמקום זאת עוברים על העץ החישובי באלגוריתם חיפוש לרוחב .
הביטוי-מחדש של DFT בגודל N כשני DFT בגודל N/2, כמפורט לעיל, נקרא לעיתים הלמה של Danielson–Lanczos, מאחר ששני המחברים כתבו על זהות זו ב-1942 [7] (בהשפעת עבודתו של Runge משנת 1903[2] ). הם יישמו את הלמה שלהם כרקורסיה "לאחור", כך שגודל ה-DFT הוכפל שוב ושוב עד שספקטרום ההתמרה התכנס (הגם שנראה שהם לא הבינו שהם השיגו את הסיבוכיות האסימפטוטית O(NlogN)). עבודתם קדמה לזמינות נרחבת של מחשבים מכניים או אלקטרוניים והצריכה חישוב ידני (אפשר שעם עזרים מכניים כגון מכונת חיבור); הם דיווחו על זמן חישוב של 140 דקות עבור DFT בגודל 64 הפועל על קלט ממשי בדיוק של 3–5 ספרות. המאמר של קולי-טוקי משנת 1965 דיווח על זמן ריצה של 0.02 דקות עבור DFT מרוכב בגודל 2048 בריצה על IBM 7094 (כנראה תוך שימוש בנקודה צפה של 36 סיביות, כ-8 ספרות).[3] בשינוי קנה המידה של הזמן לפי מספר הפעולות, דיווח זה מתאים להכפלת מהירות בערך פי 800,000. (כדי לתת פרספקטיבה לזמן החישוב הידני, 140 דקות עבור גודל 64 תואמות לממוצע של לא יותר מ-16 שניות לכל פעולת נקודה צפה, כש-20% מהן הן פעולות כפל. )
יישומי FFT בעלי ביצועים גבוהים עורכים שינויים רבים במימוש האלגוריתם בהשוואה למימוש הבסיסי הפשוט. לדוגמה, אפשר להשתמש במקרה בסיס גדול מ- N =1 להפחתת התקורה של הרקורסיה, גורם הסיבוב (twiddle factor) ניתן לחישוב מראש, ולעיתים קרובות נעשה שימוש בבסיסים גדולים יותר משיקולי זיכרון מטמון ; אופטימיזציות אלו ואחרות יכולות ביחד לשפר את הביצועים בסדר גודל או יותר.[8] (במימושים של האלגוריתם בספרי לימוד רבים, הרקורסיה של האלגוריתם חיפוש לעומק נשמטת לטובת הגישה הלא-רקורסיבית של אלגוריתם חיפוש לרוחב, אם כי נטען כי לרקורסיה של חיפוש לעומק ישנה מקומיות זיכרון טובה יותר.[8][9] )
הרעיון
כללית, אלגוריתמים של קולי-טוקי מבטאים-מחדש באופן רקורסיבי DFT בגודל מורכב N=N1N2 כ:[10]
- חשב N1 התמרות DFT בגודל N2.
- הכפל בגורמי סיבוב.
- חשב N2 התמרות DFT בגודל N1.
לרוב, N1 או N2 הוא גורם קטן (לא בהכרח ראשוני), הנקרא בסיס והוא יכול להיות שונה בין שלבי הרקורסיה. גורמי הסיבוב הם שורשי יחידה מרוכבים, שהם נקודות על מעגל היחידה. דהיינו, הכפלתם במספר מרוכב אחר, משנה רק את הזווית שלו. גורמי הסיבוב במקרה של DFT בגודל 2 הם 1-/+. ה-DFT הקטן של הבסיס נקרא לעיתים פרפר, בשל צורת תרשים זרימת הנתונים במקרה של radix-2.
וריאציות
ישנן וריאציות רבות של אלגוריתם קולי-טוקי. יישומי האלגוריתם עם בסיסים מעורבים מטפלים בגדלים מורכבים שאפשר לפרק לכמה גורמים (לרוב קטנים) בנוסף ל-2, בדרך כלל (אך לא תמיד) תוך שימוש באלגוריתם הישיר, בסיבוכיות O(N 2), עבור מקרי הבסיס העיקריים של הרקורסיה ( אפשר גם להשתמש באלגוריתם O(NlogN) עבור מקרי הבסיס העיקריים, כגון האלגוריתמים של Rader או Bluestein ) . בסיס מפוצל ממזג בסיסים 2 ו-4, תוך ניצול העובדה שההתמרה הראשונה של בסיס 2 אינה דורשת גורם סיבוב, על מנת להשיג את מה שהיה זמן רב מספר הפעולות האריתמטיות הנמוך ביותר הידוע עבור גדלים שהם חזקה של 2,[10] למרות שווריאציות שפותחו לאחרונה השיגו מספר פעולות נמוך עוד יותר. [11] [12] (במחשבים של ימינו, הביצועים נקבעים יותר על ידי שיקולי זיכרון מטמון וצינורות עיבוד נתונים מאשר על ידי ספירת פעולות קפדנית; יישומי FFT אופטימליים משתמשים לעיתים קרובות בבסיסים גדולים יותר ו/או התמרות בסיסיות מקודדות בגודל משמעותי.[13] ).
אפשר גם לראות את האלגוריתם של קולי-טוקי כביטוי מחדש של DFT חד-ממדי בגודל N כ-DFT דו ממדי בגודל N1 על N2 (בתוספת סיבובים), כאשר מטריצת הפלט עוברת שחלוף. עבור אלגוריתם radix-2, התוצאה נטו של השחלופים תואמת להיפוך סיביות של האינדקס של הקלט או הפלט. אם, במקום להשתמש בבסיס קטן, נשתמש בבסיס של בערך השורש הריבועי של N, ובשחלופים מפורשים של מטריצת קלט/פלט, נקבל אלגוריתם שנקרא אלגוריתם בן ארבעה צעדים (או שישה צעדים, תלוי במספר השחלופים). האלגוריתם הוצע בתחילה כדי לשפר את מקומיוּת הזיכרון,[14][15] למשל עבור אופטימיזציה של זיכרון מטמון או פעולות מחוץ לזיכרון, ומאוחר יותר הוכח כי הוא אופטימלי כ-cache-oblivious algorithm .[16]
הפירוק הכללי של קולי-טוקי משכתב את האינדקסים k ו-n כ ו , בהתאמה, כאשר האינדקסים ka ו-na הם בתחום שבין 0 ו-Na-1 (כאשר a הוא 1 או 2). כלומר, הפירוק מארגן מחדש את הקלט (n) ואת הפלט (k) כמערכים דו-ממדיים של N1 על N2 בסדר עמודה ושורה, בהתאמה; ההבדל בין האינדקסים הללו הוא שחלוף, כמוזכר לעיל. כאשר האינדקסים החדשים האלה מוחלפים בנוסחת DFT עבור nk, הביטוי הצולב נעלם (המעריך שלו הוא 1), ושאר הביטויים נותנים
-
- .
כאשר כל סכום פנימי הוא DFT בגודל N2, כל סכום חיצוני הוא DFT בגודל N1, והביטוי [...] בסוגריים הוא גורם הסיבוב.
אפשר להשתמש בבסיס r שרירותי (כמו גם בסיסים מעורבים), כפי שהראו הן קולי וטוקי[3] והן גאוס (שנתן דוגמאות של שלבים של בסיס-3 ושל בסיס-6).[2] קולי וטוקי הניחו במקור שפרפר הבסיס עבור r מחייב סיבוכיות חישובית של O(r2) ומכאן חישבו שהסיבוכיות עבור בסיס r היא O(r2 N/r logrN) = O(N log2(N) r/log2r); מחישוב ערכי r/log2r עבור ערכי r בין 2 ל-12, נמצא שהבסיס האופטימלי הוא 3 (המספר השלם הקרוב ביותר ל-e, אשר ממזער את הביטוי r/log2r ).[3] [17] אולם ניתוח זה היה שגוי: פרפר הבסיס הוא גם DFT וניתן לחישוב באמצעות אלגוריתם FFT בסיבוכיות O(rlogr), ומכאן שבסיס מבטל למעשה את הסיבוכיות O(r log(r) N/r logrN), וה- r האופטימלי נקבע על סמך שיקולים מורכבים יותר. בפועל, r גדול למדי (32 או 64) חשוב על מנת לנצל למשל בצורה יעילה את המספר הגדול של האוגרים במעבדים מודרניים,[13] ואפילו בסיס לא מוגבל r = √ N משיג גם הוא סיבוכיות של O(N log N) ויש לו יתרונות תאורטיים ומעשיים עבור N גדול.[14][15][16]
הערות שוליים
- ^ Gauss, Carl Friedrich (1876). Theoria Interpolationis Methodo Nova Tractata. Carl Friedrich Gauss Werke. Vol. Band 3. Göttingen: Königliche Gesellschaft der Wissenschaften. pp. 265–327.
- ^ 2.0 2.1 2.2 2.3 2.4 Heideman, M. T., D. H. Johnson, and C. S. Burrus, "Gauss and the history of the fast Fourier transform," IEEE ASSP Magazine, 1, (4), 14–21 (1984)
- ^ 3.0 3.1 3.2 3.3 3.4 Cooley, James W.; Tukey, John W. (1965). "An algorithm for the machine calculation of complex Fourier series". Math. Comput. 19 (90): 297–301. doi:10.2307/2003354. JSTOR 2003354.
- ^ Cooley, James W.; Lewis, Peter A. W.; Welch, Peter D. (1967). "Historical notes on the fast Fourier transform" (PDF). IEEE Transactions on Audio and Electroacoustics. 15 (2): 76–79. CiteSeerX 10.1.1.467.7209. doi:10.1109/tau.1967.1161903.
- ^ Rockmore, Daniel N., Comput. Sci. Eng. 2 (1), 60 (2000). The FFT — an algorithm the whole family can use Special issue on "top ten algorithms of the century "Barry A. Cipra. "The Best of the 20th Century: Editors Name Top 10 Algorithms" (PDF). SIAM News. 33. אורכב מ-המקור (PDF) ב-2009-04-07. נבדק ב-2009-03-31.
- ^ James W. Cooley, Peter A. W. Lewis, and Peter W. Welch, "Historical notes on the fast Fourier transform," Proc. IEEE, vol. 55 (no. 10), p. 1675–1677 (1967).
- ^ Danielson, G. C., and C. Lanczos, "Some improvements in practical Fourier analysis and their application to X-ray scattering from liquids," J. Franklin Inst. 233, 365–380 and 435–452 (1942).
- ^ 8.0 8.1 S. G. Johnson and M. Frigo, "Implementing FFTs in practice," in Fast Fourier Transforms (C. S. Burrus, ed.), ch. 11, Rice University, Houston TX: Connexions, September 2008.
- ^ Singleton, Richard C. (1967). "On computing the fast Fourier transform". Commun. ACM. 10 (10): 647–654. doi:10.1145/363717.363771.
- ^ 10.0 10.1 Duhamel, P., and M. Vetterli, "Fast Fourier transforms: a tutorial review and a state of the art," Signal Processing 19, 259–299 (1990)
- ^ Lundy, T., and J. Van Buskirk, "A new matrix approach to real FFTs and convolutions of length 2k," Computing 80, 23–45 (2007).
- ^ Johnson, S. G., and M. Frigo, "A modified split-radix FFT with fewer arithmetic operations," IEEE Trans. Signal Process. 55 (1), 111–119 (2007).
- ^ 13.0 13.1 Frigo, M.; Johnson, S. G. (2005). "The Design and Implementation of FFTW3" (PDF). Proceedings of the IEEE. 93 (2): 216–231. CiteSeerX 10.1.1.66.3097. doi:10.1109/JPROC.2004.840301.
- ^ 14.0 14.1 Gentleman W. M., and G. Sande, "Fast Fourier transforms—for fun and profit," Proc. AFIPS 29, 563–578 (1966).
- ^ 15.0 15.1 Bailey, David H., "FFTs in external or hierarchical memory," J. Supercomputing 4 (1), 23–35 (1990)
- ^ 16.0 16.1 M. Frigo, C. E. Leiserson, H. Prokop, and S. Ramachandran. Cache-oblivious algorithms. In Proceedings of the 40th IEEE Symposium on Foundations of Computer Science (FOCS 99), p.285-297. 1999. Extended abstract at IEEE, at Citeseer.
- ^ Cooley, J. W., P. Lewis and P. Welch, "The Fast Fourier Transform and its Applications", IEEE Trans on Education 12, 1, 28–34 (1969)
אלגוריתם ה-FFT של קולי-טוקי35138013Q5167446